Skip to content

process_poleval plain text

Stworzyć skrypt process_poleval_plain. Zasada działania podobna do process_poleval, z następującą różnicą:

  • tekst wczytywany jest bezpośrednio z pliku JSON,
  • tokenizacja wykonywana jest przy użyciu NLTK lub spaCy (model dla j. polskiego).

Wybór metody tokenizacji powinien być parametrem skryptu.

Podział na zdania i tokeny w NLTK: http://moria.umcs.lublin.pl/sphinx/src/machine_learning/natural_language_processing/preprocessing.html#podzial-na-zdania-za-pomoca-pakietu-nltk

Podział na zdania i tokeny w spaCy: https://spacy.io/models/pl, https://spacy.io/usage/processing-pipelines

Edited by Michał Marcińczuk