process_poleval plain text
Stworzyć skrypt process_poleval_plain. Zasada działania podobna do process_poleval, z następującą różnicą:
- tekst wczytywany jest bezpośrednio z pliku JSON,
- tokenizacja wykonywana jest przy użyciu NLTK lub spaCy (model dla j. polskiego).
Wybór metody tokenizacji powinien być parametrem skryptu.
Podział na zdania i tokeny w NLTK: http://moria.umcs.lublin.pl/sphinx/src/machine_learning/natural_language_processing/preprocessing.html#podzial-na-zdania-za-pomoca-pakietu-nltk
Podział na zdania i tokeny w spaCy: https://spacy.io/models/pl, https://spacy.io/usage/processing-pipelines