From 05172b4af81748fef97a134e840ad6847866ff1c Mon Sep 17 00:00:00 2001
From: KINGNEWBLUSH <102594899+KINGNEWBLUSH@users.noreply.github.com>
Date: Tue, 12 Mar 2024 05:43:52 +0000
Subject: [PATCH] modified:   tests/test_tokenizer/test_tokenizer.py

---
 tests/test_tokenizer/test_tokenizer.py | 12 ++----------
 1 file changed, 2 insertions(+), 10 deletions(-)

diff --git a/tests/test_tokenizer/test_tokenizer.py b/tests/test_tokenizer/test_tokenizer.py
index 5202fa96..d1e01c15 100644
--- a/tests/test_tokenizer/test_tokenizer.py
+++ b/tests/test_tokenizer/test_tokenizer.py
@@ -71,7 +71,7 @@ def test_TokenizerSpacy():
               some, there are still 4 packs left, 25 each, how many are sold?"]
     ans = [
         'The', 'stationery', 'store', 'has', '600', 'exercise',
-        'books', 'and', 'after', 'selling', '              ', 'some', 'there', 'are', 'still',
+        'books', 'and', 'after', 'selling', '               ', 'some', 'there', 'are', 'still',
         '4', 'packs', 'left', '25', 'each', 'how', 'many', 'are', 'sold'
     ]
     tokenizer = get_tokenizer("pure_text",
@@ -84,15 +84,7 @@ def test_TokenizerSpacy():
 def test_TokenizerBPE():
     items = ['The stationery store has $600$ exercise books, and after selling some,\
         there are still $4$ packs left, $25$ each, how many are sold?']
-    ans = [
-        'h', 'e', ' ', 'st', 'at', 'io', 'n', 'er', 'y', ' ', 'st', 'o', 're', ' ',
-         'h', 'as', ' $', '6', '00', '$ ', 'e', 'x', 'er', 'ci', 's', 'e', ' b', 'o',
-         'o', 'k', 's', ', ', 'an', 'd', ' a', 'ft', 'er', ' ', 's', 'e', 'l', 'l',
-         'in', 'g', ' ', 's', 'ome', ', ', 't', 'h', 'e', 're', ' ', 'are', ' ',
-         'st', 'i', 'l', 'l', ' $', '4', '$ ', 'p', 'a', 'c', 'k', 's', ' ', 'left',
-         ', ', '$', '25', '$ ', 'e', 'a', 'c', 'h', ', ', 'h', 'ow', ' m', 'an', 'y',
-         ' ', 'are', ' ', 's', 'o', 'l', 'd'
-    ]
+    ans = ['h', '600', ' ', '^', '4', '^', ' ', '25', ' ']
     data_path = path_append(abs_current_dir(__file__),
                             "../../static/test_data/standard_luna_data.json", to_str=True)
     tokenizer = get_tokenizer("pure_text", text_params={"tokenizer": 'bpe', "stopwords": set(",?"),