process_tsv
process_tsv.py
--model PATH \
--pretrained_path PATH \
--input PATH
--output PATH
Założenia
- plik wejściowy jest w formacie TSV,
- pierwsza kolumna zawiera tekst podzielony na tokeny,
- dodatkowe kolumny należy pominąć,
- pusta linia jest separatorem zdań,
- jeżeli w pliku wejściowym jest linia zawierająca "-DOCSTART", to powinna zostać skopiowana do pliku wynikowego.
Przykład
process_tsv.py
--model models/kpwr_n82_base \
--pretrained_path roberta_base_fairseq \
--input input.tsv
--output output.tsv
Input:
-DOCSTART zdanie 1
Ala
z
Krakowa
jeździ
Audi
-DOCSTART zdanie 2
Marek
Nowak
z
Politechniki
Wrocławskiej
mieszka
przy
ul
.
Sądeckiej
Output:
-DOCSTART zdanie 1
Ala B-nam_liv_person
z O
Krakowa B-nam_loc_gpe_city
jeździ O
Audi B-nam_pro_brand
-DOCSTART zdanie 2
Marek B-nam_liv_person
Nowak I-nam_liv_person
z O
Politechniki B-nam_org_organization
Wrocławskiej I-nam_org_organization
mieszka O
przy O
ul O
. O
Sądeckiej B-nam_fac_road