Add multiword support to lambo_tokenizer.py

a08dc86d · Maja Jablonska · 7ca1bc2a · a08dc86d
Commit a08dc86d authored 1 year ago by Maja Jablonska
--- a/combo/data/tokenizers/lambo_tokenizer.py
+++ b/combo/data/tokenizers/lambo_tokenizer.py
@@ -43,9 +43,16 @@ class LamboTokenizer(Tokenizer):
        document = self.__tokenizer.segment(text)
        sentences = []
+        sentence_tokens = []
        for turn in document.turns:
            for sentence in turn.sentences:
-                sentences.append([t.text for t in sentence.tokens])
+                sentence_tokens = []
+                for token in sentence.tokens:
+                    if len(token.subwords) > 0:
+                        sentence_tokens.extend([s for s in token.subwords])
+                    else:
+                        sentence_tokens.append(token.text)
+                sentences.append(sentence_tokens)
        return sentences