Add Lightning training classes

25860d3b · Maja Jablonska · ba511cf5 · 25860d3b · ba511cf5 · ba511cf5
Commit 25860d3b authored Oct 1, 2023 by Maja Jablonska
--- a/combo/data/vocabulary.py
+++ b/combo/data/vocabulary.py
@@ -141,6 +141,17 @@ class Vocabulary(FromParameters):
                                                     self._oov_token)
        self._retained_counter: Optional[Dict[str, Dict[str, int]]] = None
+        self._extend(
+            counter,
+            min_count,
+            max_vocab_size,
+            non_padded_namespaces,
+            pretrained_files,
+            only_include_pretrained_words,
+            tokens_to_add,
+            min_pretrained_embeddings
+        )
    def _extend(self,
                counter: Dict[str, Dict[str, int]] = None,
                min_count: Dict[str, int] = None,

--- a/combo/dataset_reader.ipynb
+++ b/combo/dataset_reader.ipynb
-{
- "cells": [
-  {
-   "cell_type": "code",
-   "execution_count": 10,
-   "id": "initial_id",
-   "metadata": {
-    "collapsed": true,
-    "ExecuteTime": {
-     "end_time": "2023-09-24T07:02:40.432822Z",
-     "start_time": "2023-09-24T07:02:40.415807Z"
-    }
-   },
-   "outputs": [],
-   "source": [
-    "from combo.data.dataset_readers import UniversalDependenciesDatasetReader\n",
-    "from combo.data.tokenizers import CharacterTokenizer\n",
-    "from combo.data.token_indexers import TokenConstPaddingCharactersIndexer, TokenFeatsIndexer, PretrainedTransformerFixedMismatchedIndexer, SingleIdTokenIndexer\n",
-    "from combo.data.dataset_loaders import SimpleDataLoader\n",
-    "from combo.data.vocabulary import FromInstancesVocabulary"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 2,
-   "outputs": [],
-   "source": [
-    "def default_const_character_indexer():\n",
-    "    return TokenConstPaddingCharactersIndexer(\n",
-    "            tokenizer=CharacterTokenizer(end_tokens=[\"__END__\"],\n",
-    "            start_tokens=[\"__START__\"]),\n",
-    "            min_padding_length=32,\n",
-    "            namespace=\"lemma_characters\"\n",
-    "    )\n",
-    "\n",
-    "dataset_reader = UniversalDependenciesDatasetReader(\n",
-    "    features=[\"token\", \"char\"],\n",
-    "    lemma_indexers={\n",
-    "        \"char\": default_const_character_indexer()\n",
-    "    },\n",
-    "    targets=[\"deprel\", \"head\", \"upostag\", \"lemma\", \"feats\", \"xpostag\"],\n",
-    "    token_indexers={\n",
-    "        \"char\": default_const_character_indexer(),\n",
-    "        \"feats\": TokenFeatsIndexer(),\n",
-    "        \"lemma\": default_const_character_indexer(),\n",
-    "        \"token\": PretrainedTransformerFixedMismatchedIndexer(\"bert-base-cased\"),\n",
-    "        \"upostag\": SingleIdTokenIndexer(\n",
-    "            feature_name=\"pos_\",\n",
-    "            namespace=\"upostag\"\n",
-    "        ),\n",
-    "        \"xpostag\": SingleIdTokenIndexer(\n",
-    "            feature_name=\"tag_\",\n",
-    "            namespace=\"xpostag\"\n",
-    "        )\n",
-    "    },\n",
-    "    use_sem=False\n",
-    ")"
-   ],
-   "metadata": {
-    "collapsed": false,
-    "ExecuteTime": {
-     "end_time": "2023-09-24T06:53:51.498706Z",
-     "start_time": "2023-09-24T06:53:49.212209Z"
-    }
-   },
-   "id": "abb6ce33c2e461e6"
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 3,
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...\n",
-      "To disable this warning, you can either:\n",
-      "\t- Avoid using `tokenizers` before the fork if possible\n",
-      "\t- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": "loading instances: 0it [00:00, ?it/s]",
-      "application/vnd.jupyter.widget-view+json": {
-       "version_major": 2,
-       "version_minor": 0,
-       "model_id": "56d2edd36b9d42429d1629cdb6031126"
-      }
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    }
-   ],
-   "source": [
-    "FILE_PATH = '/Users/majajablonska/Documents/train.conllu'\n",
-    "data_loader = SimpleDataLoader.from_dataset_reader(dataset_reader,\n",
-    "                                                   data_path=FILE_PATH,\n",
-    "                                                   batch_size=4)"
-   ],
-   "metadata": {
-    "collapsed": false,
-    "ExecuteTime": {
-     "end_time": "2023-09-24T06:53:58.585298Z",
-     "start_time": "2023-09-24T06:53:51.497953Z"
-    }
-   },
-   "id": "3519b6753622def0"
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 7,
-   "outputs": [],
-   "source": [
-    "for i in data_loader.iter_instances():\n",
-    "    break"
-   ],
-   "metadata": {
-    "collapsed": false,
-    "ExecuteTime": {
-     "end_time": "2023-09-24T06:54:56.208254Z",
-     "start_time": "2023-09-24T06:54:56.188568Z"
-    }
-   },
-   "id": "eb23ae8415cb52c2"
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 11,
-   "outputs": [
-    {
-     "data": {
-      "text/plain": "building vocabulary: 0it [00:00, ?it/s]",
-      "application/vnd.jupyter.widget-view+json": {
-       "version_major": 2,
-       "version_minor": 0,
-       "model_id": "5eb70beb73944090a9b054a4235d9df6"
-      }
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    }
-   ],
-   "source": [
-    "vocabulary = FromInstancesVocabulary.from_instances_extended(\n",
-    "    data_loader.iter_instances(),\n",
-    "    non_padded_namespaces=['head_labels'],\n",
-    "    only_include_pretrained_words=True,\n",
-    "    oov_token='_',\n",
-    "    padding_token='__PAD__'\n",
-    ")"
-   ],
-   "metadata": {
-    "collapsed": false,
-    "ExecuteTime": {
-     "end_time": "2023-09-24T07:03:52.410405Z",
-     "start_time": "2023-09-24T07:03:45.701901Z"
-    }
-   },
-   "id": "834f448f90453d03"
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "outputs": [],
-   "source": [],
-   "metadata": {
-    "collapsed": false
-   },
-   "id": "82d4c789c15866ab"
-  },
-  {
-   "cell_type": "markdown",
-   "source": [],
-   "metadata": {
-    "collapsed": false
-   },
-   "id": "9a4de0a90632538"
-  }
- ],
- "metadata": {
-  "kernelspec": {
-   "display_name": "Python 3",
-   "language": "python",
-   "name": "python3"
-  },
-  "language_info": {
-   "codemirror_mode": {
-    "name": "ipython",
-    "version": 2
-   },
-   "file_extension": ".py",
-   "mimetype": "text/x-python",
-   "name": "python",
-   "nbconvert_exporter": "python",
-   "pygments_lexer": "ipython2",
-   "version": "2.7.6"
-  }
- },
- "nbformat": 4,
- "nbformat_minor": 5
-}
-%% Cell type:code id:initial_id tags:
-``` python
-from combo.data.dataset_readers import UniversalDependenciesDatasetReader
-from combo.data.tokenizers import CharacterTokenizer
-from combo.data.token_indexers import TokenConstPaddingCharactersIndexer, TokenFeatsIndexer, PretrainedTransformerFixedMismatchedIndexer, SingleIdTokenIndexer
-from combo.data.dataset_loaders import SimpleDataLoader
-from combo.data.vocabulary import FromInstancesVocabulary
-```
-%% Cell type:code id:abb6ce33c2e461e6 tags:
-``` python
-def default_const_character_indexer():
-    return TokenConstPaddingCharactersIndexer(
-            tokenizer=CharacterTokenizer(end_tokens=["__END__"],
-            start_tokens=["__START__"]),
-            min_padding_length=32,
-            namespace="lemma_characters"
-    )
-dataset_reader = UniversalDependenciesDatasetReader(
-    features=["token", "char"],
-    lemma_indexers={
-        "char": default_const_character_indexer()
-    },
-    targets=["deprel", "head", "upostag", "lemma", "feats", "xpostag"],
-    token_indexers={
-        "char": default_const_character_indexer(),
-        "feats": TokenFeatsIndexer(),
-        "lemma": default_const_character_indexer(),
-        "token": PretrainedTransformerFixedMismatchedIndexer("bert-base-cased"),
-        "upostag": SingleIdTokenIndexer(
-            feature_name="pos_",
-            namespace="upostag"
-        ),
-        "xpostag": SingleIdTokenIndexer(
-            feature_name="tag_",
-            namespace="xpostag"
-        )
-    },
-    use_sem=False
-)
-```
-%% Cell type:code id:3519b6753622def0 tags:
-``` python
-FILE_PATH = '/Users/majajablonska/Documents/train.conllu'
-data_loader = SimpleDataLoader.from_dataset_reader(dataset_reader,
-                                                   data_path=FILE_PATH,
-                                                   batch_size=4)
-```
-%% Output
-    huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
-    To disable this warning, you can either:
-    	- Avoid using `tokenizers` before the fork if possible
-    	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
-%% Cell type:code id:eb23ae8415cb52c2 tags:
-``` python
-for i in data_loader.iter_instances():
-    break
-```
-%% Cell type:code id:834f448f90453d03 tags:
-``` python
-vocabulary = FromInstancesVocabulary.from_instances_extended(
-    data_loader.iter_instances(),
-    non_padded_namespaces=['head_labels'],
-    only_include_pretrained_words=True,
-    oov_token='_',
-    padding_token='__PAD__'
-)
-```
-%% Output
-%% Cell type:code id:82d4c789c15866ab tags:
-``` python
-```
-%% Cell type:markdown id:9a4de0a90632538 tags:
--- a/combo/example.ipynb
+++ b/combo/example.ipynb
--- a/combo/training.ipynb
+++ b/combo/training.ipynb
--- a/combo/training/scheduler.py
+++ b/combo/training/scheduler.py
-class Scheduler:
+import torch
-    pass
+from typing import Callable, List, Union
+from overrides import overrides
+class Scheduler(torch.optim.lr_scheduler.LambdaLR):
+    def __init__(self,
+                 optimizer: torch.optim.Optimizer,
+                 patience: int = 6,
+                 decreases: int = 2,
+                 threshold: float = 1e-3,
+                 last_epoch: int = -1,
+                 verbose: bool = False):
+        super().__init__(optimizer, [self._lr_lambda], last_epoch, verbose)
+        self.patience = patience
+        self.decreases = decreases
+        self.threshold = threshold
+        self.start_patience = patience
+        self.best_score = 0.0
+    @staticmethod
+    def _lr_lambda(idx: int) -> float:
+        return 1.0 / (1.0 + idx * 1e-4)
+    def step(self, metric: float = None) -> None:
+        super().step()
+        if metric is not None:
+            if metric - self.best_score > self.threshold:
+                self.best_score = metric if metric > self.best_score else self.best_score
+                self.patience = self.start_patience
+            else:
+                if self.patience <= 1:
+                    if self.decreases == 0:
+                        # The Trainer should trigger early stopping
+                        self.patience = 0
+                    else:
+                        self.patience = self.start_patience
+                        self.decreases -= 1
+                        self.threshold /= 2
+                        self.base_lrs = [x / 2 for x in self.base_lrs]
+                else:
+                    self.patience -= 1
--- a/combo/training/trainable_combo.py
+++ b/combo/training/trainable_combo.py
-from typing import Optional, Type
+from typing import Any, Dict, List, Optional, Type
 import pytorch_lightning as pl
+import torch
 from torch import Tensor
 from combo.config import FromParameters
 from combo.data.dataset_loaders.dataset_loader import TensorDict
 from combo.modules.model import Model
+from combo.training import Scheduler
 class TrainableCombo(pl.LightningModule, FromParameters):
    def __init__(self,
                 model: Model,
-                 optimizer_type: Type,
+                 optimizer_type: Type = torch.optim.Adam,
-                 learning_rate: float = 0.1):
+                 optimizer_kwargs: Optional[Dict[str, Any]] = None,
+                 scheduler_type: Type = Scheduler,
+                 scheduler_kwargs: Optional[Dict[str, Any]] = None,
+                 validation_metrics: List[str] = None):
        super().__init__()
        self.model = model
        self._optimizer_type = optimizer_type
-        self._lr = learning_rate
+        self._optimizer_kwargs = optimizer_kwargs if optimizer_kwargs else {}
+        self._scheduler_type = scheduler_type
+        self._scheduler_kwargs = scheduler_kwargs if scheduler_kwargs else {}
+        self._validation_metrics = validation_metrics if validation_metrics else []
    def forward(self, batch: TensorDict) -> TensorDict:
        return self.model.batch_outputs(batch, self.model.training)
@@ -28,8 +39,17 @@ class TrainableCombo(pl.LightningModule, FromParameters):
    def validation_step(self, batch: TensorDict, batch_idx: int) -> Tensor:
        output = self.forward(batch)
-        self.log("validation_loss", output['loss'], on_step=True, on_epoch=True, prog_bar=True, logger=True)
+        metrics = self.model.get_metrics()
+        for k in metrics.keys():
+            if k in self._validation_metrics:
+                self.log(k, metrics[k], on_epoch=True, prog_bar=True, logger=True)
        return output["loss"]
+    def lr_scheduler_step(self, scheduler: torch.optim.lr_scheduler, metric: Optional[Any]) -> None:
+        scheduler.step(metric=metric)
    def configure_optimizers(self):
-        return self._optimizer_type(self.model.parameters(), lr=self._lr)
+        optimizer = self._optimizer_type(self.model.parameters(), **self._optimizer_kwargs)
+        return ([optimizer],
+                [{'scheduler': self._scheduler_type(optimizer, **self._scheduler_kwargs),
+                 'interval': 'epoch'}])