Add test for tokenize_text function

82b6bdba · Paweł Tometczak · f5183e01 · 82b6bdba
Commit 82b6bdba authored 2 years ago by Paweł Tometczak
--- a/test_tokenize_text.py
+++ b/test_tokenize_text.py
+import pytest
+
+@pytest.mark.parametrize("text, expected_tokens", [
+    ("Dzëje sã to w dzysëjszich czasach, ale tradëcejã Gwiôzdczi je stôri i bògaty, òd  niepamiãtnych czasów.", 
+    ['Dzëje', 'sã', 'to', 'w', 'dzysëjszich', 'czasach', 'ale', 'tradëcejã', 'Gwiôzdczi', 'je', 'stôri', 'i', 'bògaty', 'òd', 'niepamiãtnych', 'czasów']),
+    ("Jak më tu pamitãtómë, Gwiôzdka  przëchòda  ze Gduńska abò z Lãbòrga,  jész za dôwnych czasów.",
+    ['Jak', 'më', 'tu', 'pamitãtómë', 'Gwiôzdka', 'przëchòda', 'ze', 'Gduńska', 'abò', 'z', 'Lãbòrga', 'jész', 'za', 'dôwnych', 'czasów']),
+    ("Do jizbë wlôżô trzech starszich wiekã królów, a za nima stôrô, zgarbiono, w chùsce na głowie, ùbògô baba z czijã.",
+    ['Do', 'jizbë', 'wlôżô', 'trzech', 'starszich', 'wiekã', 'królów', 'a', 'za', 'nima', 'stôrô', 'zgarbiono', 'w', 'chùsce', 'na', 'głowie', 'ùbògô', 'baba', 'z', 'czijã']),
+    ( "Mòrze rëczało, dzarło sã, szôlało jak w piekle, a mòja gwiôzda stoji, jakbë na mie żda.",
+    ['Mòrze', 'rëczało', 'dzarło', 'sã', 'szôlało', 'jak', 'w', 'piekle', 'a', 'mòja', 'gwiôzda', 'stoji', 'jakbë', 'na', 'mie', 'żda']),
+    ("Òddzél Kaszëbów skłôdający sã z 200 lëdzy przebił sã przez grańcowi kòrdon Prësôków pòd Brodnicą i wmaszérowalë na plac Królestwa.",
+    ['Òddzél', 'Kaszëbów', 'skłôdający', 'sã', 'z', 'lëdzy', 'przebił', 'sã', 'przez', 'grańcowi', 'kòrdon', 'Prësôków', 'pòd', 'Brodnicą', 'i', 'wmaszérowalë', 'na', 'plac', 'Królestwa']),
+    ("Przez tegò Kòpernika mie so tã fejn w glowie krãcëlo, ale w kùńcu nót bëlo dodóm wrócëc.",
+    ['Przez', 'tegò', 'Kòpernika', 'mie', 'so', 'tã', 'fejn', 'w', 'glowie', 'krãcëlo', 'ale', 'w', 'kùńcu', 'nót', 'bëlo', 'dodóm', 'wrócëc']),
+    ("Z tegò pësznégò miasta jô so wiedno przëwiozã z grëpą smacznëch pierników, co pò kaszëbskù są téż pieprznikama zwóné.",
+    ['Z', 'tegò', 'pësznégò', 'miasta', 'jô', 'so', 'wiedno', 'przëwiozã', 'z', 'grëpą', 'smacznëch', 'pierników', 'co', 'pò', 'kaszëbskù', 'są', 'téż', 'pieprznikama', 'zwóné']),
+    ("Z zôczątkù òni tã za wiele nie rozmielë, ale jak rôz i drëdżi tegò brunégò proszkù òszmakalë, to zarôzka cos z naszi gôdczi  zmerkalë.",
+    ['Z', 'zôczątkù', 'òni', 'tã', 'za', 'wiele', 'nie', 'rozmielë', 'ale', 'jak', 'rôz', 'i', 'drëdżi', 'tegò', 'brunégò', 'proszkù', 'òszmakalë', 'to', 'zarôzka', 'cos', 'z', 'naszi', 'gôdczi', 'zmerkalë']),
+    ("A tanta Grizelda mia tim zdechlim lësã szëjã òbwinionô",
+    ['A', 'tanta', 'Grizelda', 'mia', 'tim', 'zdechlim', 'lësã', 'szëjã', 'òbwinionô'])])
+
+def test_tokenize_text(text, expected_tokens):
+    assert tokenize_text(text) == expected_tokens
\ No newline at end of file