Skip to content
Snippets Groups Projects
Commit 4ddc419d authored by Maja Jablonska's avatar Maja Jablonska
Browse files

Add internal comments [to be deleted after the changes]

parent 678ac2c8
No related branches found
No related tags found
1 merge request!46Merge COMBO 3.0 into master
......@@ -8,19 +8,31 @@ import conllu
from overrides import overrides
# Moze NER moglby uzywac tej 11tej kolumny?
@dataclass
class Token:
id: Optional[Union[int, Tuple]] = None
id: Optional[Union[int, Tuple]] = None # czemu tuple? multiwordy?
token: Optional[str] = None
lemma: Optional[str] = None
upostag: Optional[str] = None
xpostag: Optional[str] = None
feats: Optional[str] = None
head: Optional[int] = None
head: Optional[int] = None # Identyfikator innego tokena, ktory jest nadrzednikiem, drzewo zaleznosciowe
deprel: Optional[str] = None
deps: Optional[str] = None
misc: Optional[str] = None
semrel: Optional[str] = None
misc: Optional[str] = None # wszystko, najczesciej czy jest spacja (np. po "spi" w "spi." nie m spacji)
# nie predykujemy tego, to jest robione na poziomie tokenizera
# czasem wpisuja sie tam tez dodatkowe informacje, np. teksty z transliteracjami
# to jest w formacie conllu
semrel: Optional[str] = None # w conllu w formacie 10kolumnowym tego nie ma
# ale sa pomysly, zeby semantyke podawac jako kolejna kolumne
# moze ja zostawmy
# np. jesli mamy okoliczniki, to deprel to "adjunct", np. "w lozeczku" mamy okolicznik,
# ale nie mamy informacji o tym, ze jest to okolicznyk miejsca, i to mogloby byc w tym polu
# i tu pojawilaby sie informacja "locative"
# Niestety so far zle sie to predykuje
# Zostawic na przyszlosc, ale musi byc calkowicie opcjonalna!!!
# Nie powinno byc predykcji tego z defaultu, bo walidatory nie chca miec 11 kolumn.
embeddings: Dict[str, List[float]] = field(default_factory=list, repr=False)
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment