Fix sentence IDs in turns

11e898eb · Maja Jablonska · b7d60405 · 11e898eb · 11e898eb
Commit 11e898eb authored 1 year ago by Maja Jablonska
--- a/combo/data/tokenizers/lambo_tokenizer.py
+++ b/combo/data/tokenizers/lambo_tokenizer.py
@@ -71,9 +71,9 @@ class LamboTokenizer(Tokenizer):
        if split_level.upper() == "TURN":
            for turn in document.turns:
+                _reset_idx()
                sentence_tokens = []
                for sentence in turn.sentences:
-                    _reset_idx()
                    for token in sentence.tokens:
                        sentence_tokens.extend(_sentence_tokens(token, split_multiwords))
                tokens.append(sentence_tokens)
@@ -96,8 +96,8 @@ class LamboTokenizer(Tokenizer):
                    tokens.append(sentence_tokens)
        else:
            for turn in document.turns:
+                _reset_idx()
                for sentence in turn.sentences:
-                    _reset_idx()
                    for token in sentence.tokens:
                        tokens.extend(_sentence_tokens(token, split_multiwords))
            tokens = [tokens]

--- a/pyproject.toml
+++ b/pyproject.toml
@@ -3,7 +3,7 @@ requires = ["setuptools"]
 [project]
 name = "combo"
-version = "3.2.1"
+version = "3.2.2"
 authors = [
    {name = "Maja Jablonska", email = "maja.jablonska@ipipan.waw.pl"}
 ]