diff --git a/combo/data/api.py b/combo/data/api.py index 308e9e4a6e5daabe056f2e6a84ae17ed1dd8fa16..fe1cf99944f1328723518ca888a786b924af86e3 100644 --- a/combo/data/api.py +++ b/combo/data/api.py @@ -8,19 +8,31 @@ import conllu from overrides import overrides +# Moze NER moglby uzywac tej 11tej kolumny? @dataclass class Token: - id: Optional[Union[int, Tuple]] = None + id: Optional[Union[int, Tuple]] = None # czemu tuple? multiwordy? token: Optional[str] = None lemma: Optional[str] = None upostag: Optional[str] = None xpostag: Optional[str] = None feats: Optional[str] = None - head: Optional[int] = None + head: Optional[int] = None # Identyfikator innego tokena, ktory jest nadrzednikiem, drzewo zaleznosciowe deprel: Optional[str] = None deps: Optional[str] = None - misc: Optional[str] = None - semrel: Optional[str] = None + misc: Optional[str] = None # wszystko, najczesciej czy jest spacja (np. po "spi" w "spi." nie m spacji) + # nie predykujemy tego, to jest robione na poziomie tokenizera + # czasem wpisuja sie tam tez dodatkowe informacje, np. teksty z transliteracjami + # to jest w formacie conllu + semrel: Optional[str] = None # w conllu w formacie 10kolumnowym tego nie ma + # ale sa pomysly, zeby semantyke podawac jako kolejna kolumne + # moze ja zostawmy + # np. jesli mamy okoliczniki, to deprel to "adjunct", np. "w lozeczku" mamy okolicznik, + # ale nie mamy informacji o tym, ze jest to okolicznyk miejsca, i to mogloby byc w tym polu + # i tu pojawilaby sie informacja "locative" + # Niestety so far zle sie to predykuje + # Zostawic na przyszlosc, ale musi byc calkowicie opcjonalna!!! + # Nie powinno byc predykcji tego z defaultu, bo walidatory nie chca miec 11 kolumn. embeddings: Dict[str, List[float]] = field(default_factory=list, repr=False)