Skip to content
Snippets Groups Projects
Commit 82b6bdba authored by Paweł Tometczak's avatar Paweł Tometczak
Browse files

Add test for tokenize_text function

parent f5183e01
1 merge request!3Add test for tokenize_text function
import pytest
@pytest.mark.parametrize("text, expected_tokens", [
("Dzëje sã to w dzysëjszich czasach, ale tradëcejã Gwiôzdczi je stôri i bògaty, òd niepamiãtnych czasów.",
['Dzëje', '', 'to', 'w', 'dzysëjszich', 'czasach', 'ale', 'tradëcejã', 'Gwiôzdczi', 'je', 'stôri', 'i', 'bògaty', 'òd', 'niepamiãtnych', 'czasów']),
("Jak më tu pamitãtómë, Gwiôzdka przëchòda ze Gduńska abò z Lãbòrga, jész za dôwnych czasów.",
['Jak', '', 'tu', 'pamitãtómë', 'Gwiôzdka', 'przëchòda', 'ze', 'Gduńska', 'abò', 'z', 'Lãbòrga', 'jész', 'za', 'dôwnych', 'czasów']),
("Do jizbë wlôżô trzech starszich wiekã królów, a za nima stôrô, zgarbiono, w chùsce na głowie, ùbògô baba z czijã.",
['Do', 'jizbë', 'wlôżô', 'trzech', 'starszich', 'wiekã', 'królów', 'a', 'za', 'nima', 'stôrô', 'zgarbiono', 'w', 'chùsce', 'na', 'głowie', 'ùbògô', 'baba', 'z', 'czijã']),
( "Mòrze rëczało, dzarło sã, szôlało jak w piekle, a mòja gwiôzda stoji, jakbë na mie żda.",
['Mòrze', 'rëczało', 'dzarło', '', 'szôlało', 'jak', 'w', 'piekle', 'a', 'mòja', 'gwiôzda', 'stoji', 'jakbë', 'na', 'mie', 'żda']),
("Òddzél Kaszëbów skłôdający sã z 200 lëdzy przebił sã przez grańcowi kòrdon Prësôków pòd Brodnicą i wmaszérowalë na plac Królestwa.",
['Òddzél', 'Kaszëbów', 'skłôdający', '', 'z', 'lëdzy', 'przebił', '', 'przez', 'grańcowi', 'kòrdon', 'Prësôków', 'pòd', 'Brodnicą', 'i', 'wmaszérowalë', 'na', 'plac', 'Królestwa']),
("Przez tegò Kòpernika mie so tã fejn w glowie krãcëlo, ale w kùńcu nót bëlo dodóm wrócëc.",
['Przez', 'tegò', 'Kòpernika', 'mie', 'so', '', 'fejn', 'w', 'glowie', 'krãcëlo', 'ale', 'w', 'kùńcu', 'nót', 'bëlo', 'dodóm', 'wrócëc']),
("Z tegò pësznégò miasta jô so wiedno przëwiozã z grëpą smacznëch pierników, co pò kaszëbskù są téż pieprznikama zwóné.",
['Z', 'tegò', 'pësznégò', 'miasta', '', 'so', 'wiedno', 'przëwiozã', 'z', 'grëpą', 'smacznëch', 'pierników', 'co', '', 'kaszëbskù', '', 'téż', 'pieprznikama', 'zwóné']),
("Z zôczątkù òni tã za wiele nie rozmielë, ale jak rôz i drëdżi tegò brunégò proszkù òszmakalë, to zarôzka cos z naszi gôdczi zmerkalë.",
['Z', 'zôczątkù', 'òni', '', 'za', 'wiele', 'nie', 'rozmielë', 'ale', 'jak', 'rôz', 'i', 'drëdżi', 'tegò', 'brunégò', 'proszkù', 'òszmakalë', 'to', 'zarôzka', 'cos', 'z', 'naszi', 'gôdczi', 'zmerkalë']),
("A tanta Grizelda mia tim zdechlim lësã szëjã òbwinionô",
['A', 'tanta', 'Grizelda', 'mia', 'tim', 'zdechlim', 'lësã', 'szëjã', 'òbwinionô'])])
def test_tokenize_text(text, expected_tokens):
assert tokenize_text(text) == expected_tokens
\ No newline at end of file
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment