Poprawa mechanizmu wydobywania danych emotywnych z dumpa Słowosieci
Linia 398 w plwn/readers/wnschema.py
: kod sortuje po wartości kolumny super_annotation
i wybiera ostatni czyli taki, który ma super_annotation=1
. Ma to sens, gdy taki wpis istnieje. Jeżeli jednak pośród wszystkich anotacji emotywnych
danej jednostki leksykalnej NIE MA oznaczenia SUPER ANNOTATION=1, to ten sposób wydobywania finalnej anotacji jest błędny. Lepszym rozwiązaniem jest proste głosowanie:
markedness | super_annotation |
---|---|
amb | 0 |
amb | 0 |
-m | 0 |
Finalna anotacja markedness (w bieżącej wersji): zależy od sortowania... czyli przypadkowa. Lepszym rozwiązaniem będzie w tym przypadku głosowanie, czyli dajemy amb
.
markedness | super_annotation |
---|---|
amb | 0 |
amb | 0 |
-m | 1 |
W tym przypadku bierzemy z super_annotation
, czyli markedness = -m
.