From 4ddc419d35937055c1b4d4fada7db98939e2bdf4 Mon Sep 17 00:00:00 2001
From: Maja Jablonska <majajjablonska@gmail.com>
Date: Tue, 1 Aug 2023 14:53:02 +0200
Subject: [PATCH] Add internal comments [to be deleted after the changes]

---
 combo/data/api.py | 20 ++++++++++++++++----
 1 file changed, 16 insertions(+), 4 deletions(-)

diff --git a/combo/data/api.py b/combo/data/api.py
index 308e9e4..fe1cf99 100644
--- a/combo/data/api.py
+++ b/combo/data/api.py
@@ -8,19 +8,31 @@ import conllu
 from overrides import overrides
 
 
+# Moze NER moglby uzywac tej 11tej kolumny?
 @dataclass
 class Token:
-    id: Optional[Union[int, Tuple]] = None
+    id: Optional[Union[int, Tuple]] = None # czemu tuple? multiwordy?
     token: Optional[str] = None
     lemma: Optional[str] = None
     upostag: Optional[str] = None
     xpostag: Optional[str] = None
     feats: Optional[str] = None
-    head: Optional[int] = None
+    head: Optional[int] = None # Identyfikator innego tokena, ktory jest nadrzednikiem, drzewo zaleznosciowe
     deprel: Optional[str] = None
     deps: Optional[str] = None
-    misc: Optional[str] = None
-    semrel: Optional[str] = None
+    misc: Optional[str] = None # wszystko, najczesciej czy jest spacja (np. po "spi" w "spi." nie m spacji)
+    # nie predykujemy tego, to jest robione na poziomie tokenizera
+    # czasem wpisuja sie tam tez dodatkowe informacje, np. teksty z transliteracjami
+    # to jest w formacie conllu
+    semrel: Optional[str] = None # w conllu w formacie 10kolumnowym tego nie ma
+    # ale sa pomysly, zeby semantyke podawac jako kolejna kolumne
+    # moze ja zostawmy
+    # np. jesli mamy okoliczniki, to deprel to "adjunct", np. "w lozeczku" mamy okolicznik,
+    # ale nie mamy informacji o tym, ze jest to okolicznyk miejsca, i to mogloby byc w tym polu
+    # i tu pojawilaby sie informacja "locative"
+    # Niestety so far zle sie to predykuje
+    # Zostawic na przyszlosc, ale musi byc calkowicie opcjonalna!!!
+    # Nie powinno byc predykcji tego z defaultu, bo walidatory nie chca miec 11 kolumn.
     embeddings: Dict[str, List[float]] = field(default_factory=list, repr=False)
 
 
-- 
GitLab