For token transformed into a large number of subtokens try to tokenize lowered form.

e4006d1a · Michał Marcińczuk · 83dcdfdf · e4006d1a
Commit e4006d1a authored 2 years ago by Michał Marcińczuk
--- a/poldeepner2/utils/sequences.py
+++ b/poldeepner2/utils/sequences.py
@@ -112,6 +112,8 @@ class FeatureGenerator:
            labels = ["O"] * len(tokens)
        for word, label_1 in zip(tokens, labels):
            subtokens = self.encode_method(word.strip())
+            if len(subtokens) > 6:
+                subtokens = self.encode_method(word.strip().lower())
            if len(subtokens) > 6:
                logging.warning(f"Token {word} was truncated to 6 subtokens: {subtokens}")
                subtokens = subtokens[:6]