subword analysys
- Dodać logowanie z informacją z ilu tokenów i subwordów składają się poszczególne zdania przepuszczane przez
convert_examples_to_features
- Napisać skrypt, który dla danej listy liczby subwordów dla poszczególnych zdań i długości sekwencji (256, 512) obliczy, do ilu sekwencji można upakować zdania, tak aby po upakowaniu sekwencja nie przekraczała maksymalnego limitu, oraz w ramach danej sekwencji trafiały tylko sąsiadujące zdania. Zdania pochodzące z różnych dokumentów nie powinny być łączone.
Przykład:
50
100
50
--
20
200
20
--
200
100
Mamy trzy dokumenty (3, 3 i 2 zdania). Łącznie jest 8 sekwencji.
Po upakowaniu mamy dla maksymalnej długości sekwencji 256:
200
--
240
--
200
100
czyli 4 sekwencje.