added option for passing kweargs when predicting + fixed default_model to be...

added option for passing kweargs when predicting + fixed default_model to be consistent wiht config.template.json

added option for passing kweargs when predicting + fixed default_model to be...
added option for passing kweargs when predicting + fixed default_model to be consistent wiht config.template.json
6884e6eb · Martyna Wiącek · e007a791 · 6884e6eb · 6884e6eb
Commit 6884e6eb authored 1 year ago by Martyna Wiącek
--- a/combo/default_model.py
+++ b/combo/default_model.py
@@ -55,33 +55,61 @@ def default_ud_dataset_reader(pretrained_transformer_name: str,
        targets=["deprel", "head", "upostag", "lemma", "feats", "xpostag"],
        token_indexers={
            "char": default_character_indexer(),
-            "feats": TokenFeatsIndexer(),
+            # "feats": TokenFeatsIndexer(),
-            "lemma": default_character_indexer(),
+            # "lemma": default_character_indexer(),
            "token": PretrainedTransformerFixedMismatchedIndexer(pretrained_transformer_name),
-            "upostag": SingleIdTokenIndexer(
+            # "upostag": SingleIdTokenIndexer(
-                feature_name="pos_",
+            #     feature_name="pos_",
-                namespace="upostag"
+            #     namespace="upostag"
-            ),
+            # ),
-            "xpostag": SingleIdTokenIndexer(
+            # "xpostag": SingleIdTokenIndexer(
-                feature_name="tag_",
+            #     feature_name="tag_",
-                namespace="xpostag"
+            #     namespace="xpostag"
-            )
+            # )
        },
        use_sem=False,
        tokenizer=tokenizer
    )
-def default_data_loader(dataset_reader: DatasetReader,
+def default_data_loader(
+                        dataset_reader: DatasetReader,
                        file_path: str,
-                        batch_size: int = 16,
+                        batch_size: int = 1,
-                        batches_per_epoch: int = 4) -> SimpleDataLoader:
+                        batches_per_epoch: int = 64) -> SimpleDataLoader:
-    return SimpleDataLoader.from_dataset_reader(dataset_reader,
+    # tokenizer = tokenizer or LamboTokenizer()
-                                                data_path=file_path,
+    # reader = UniversalDependenciesDatasetReader(
-                                                batch_size=batch_size,
+    #     features=["token", "char"],
-                                                batches_per_epoch=batches_per_epoch,
+    #     lemma_indexers={
-                                                shuffle=True,
+    #         "char": default_character_indexer("lemma_characters")
-                                                collate_fn=lambda instances: Batch(instances).as_tensor_dict())
+    #     },
+    #     targets=["deprel", "head", "upostag", "lemma", "feats", "xpostag"],
+    #     token_indexers={
+    #         "char": default_character_indexer(),
+    #         # "feats": TokenFeatsIndexer(),
+    #         # "lemma": default_character_indexer(),
+    #         "token": PretrainedTransformerFixedMismatchedIndexer(pretrained_transformer_name),
+    #         # "upostag": SingleIdTokenIndexer(
+    #         #     feature_name="pos_",
+    #         #     namespace="upostag"
+    #         # ),
+    #         # "xpostag": SingleIdTokenIndexer(
+    #         #     feature_name="tag_",
+    #         #     namespace="xpostag"
+    #         # )
+    #     },
+    #     use_sem=False,
+    #     tokenizer=tokenizer
+    # )
+    return SimpleDataLoader.from_dataset_reader(
+        dataset_reader,
+        data_path=file_path,
+        batch_size=batch_size,
+        batches_per_epoch=batches_per_epoch,
+        shuffle=True,
+        quiet=False,
+        collate_fn=lambda instances: Batch(instances).as_tensor_dict())
 def default_vocabulary(data_loader: DataLoader) -> Vocabulary:

--- a/combo/predict.py
+++ b/combo/predict.py
@@ -42,7 +42,7 @@ class COMBO(PredictorModule):
        self.without_sentence_embedding = False
        self.line_to_conllu = line_to_conllu
-    def __call__(self, sentence: Union[str, List[str], List[List[str]], List[data.Sentence]]):
+    def __call__(self, sentence: Union[str, List[str], List[List[str]], List[data.Sentence]], **kwargs):
        """Depending on the input uses (or ignores) tokenizer.
        When model isn't only text-based only List[data.Sentence] is possible input.
@@ -55,7 +55,7 @@ class COMBO(PredictorModule):
        :return: Sentence or List[Sentence] depending on the input
        """
        try:
-            return self.predict(sentence)
+            return self.predict(sentence, **kwargs)
        except Exception as e:
            logger.error(e)
            logger.error('Exiting.')