tokenizer issueshttps://gitlab.clarin-pl.eu/nlpworkers/tokenizer/-/issues2020-07-08T13:14:16Zhttps://gitlab.clarin-pl.eu/nlpworkers/tokenizer/-/issues/2Rozbudowa usługi o format dla fastText-u2020-07-08T13:14:16ZTomasz WalkowiakRozbudowa usługi o format dla fastText-uDodatkowa wersja:
- nalezy dodac pramatr w jsonie
- np. type
- poprzednia opcja ma być domyślna
Na wejściu:
plik tekstowy
Na wyjściu:
- plik tekstowy potekonizowany,
- w jednej
- usunięte wszelkie znaki przestankowe
- usunięte wypunkt...Dodatkowa wersja:
- nalezy dodac pramatr w jsonie
- np. type
- poprzednia opcja ma być domyślna
Na wejściu:
plik tekstowy
Na wyjściu:
- plik tekstowy potekonizowany,
- w jednej
- usunięte wszelkie znaki przestankowe
- usunięte wypunktowania: np. a) b)
- zmiana wielkości liter: opcjonalnie2020-07-08https://gitlab.clarin-pl.eu/nlpworkers/tokenizer/-/issues/1Utworzenie usługi2020-07-08T13:14:14ZTomasz WalkowiakUtworzenie usługiUsługa tokenizacyjna na bazie np. NLTK:
- wejscie plik tekstowy z tekstem
- wyjscie plik tekstowy: tokney rozdzielane spacjami, zachowana wielkość liter, zdania rozdielane enterami
- język - na razie pl, ale w przyszłości kolejne
Przyk...Usługa tokenizacyjna na bazie np. NLTK:
- wejscie plik tekstowy z tekstem
- wyjscie plik tekstowy: tokney rozdzielane spacjami, zachowana wielkość liter, zdania rozdielane enterami
- język - na razie pl, ale w przyszłości kolejne
Przykład:
Wejście:
Ala z Krakowa jeździ Audi. Marek Nowak z Politechniki Wrocławskiej mieszka przy ul. Sądeckiej.
Wyjście:
Ala z Krakowa jeździ Audi
Marek Nowak z Politechniki Wrocławskiej mieszka przy ul . Sądeckiej2020-07-07