Punctuator
A service that automatically adds punctuation and casing to raw word-stream (eg. from speech2text) for polish, russian and english language.
Example input:
według webometrycznego rankingu uniwersytetów świata ze stycznia 2019 pokazującego zaangażowanie instytucji akademickich w internecie uczelnia zajmuje 5 miejsce w polsce wśród uczelni technicznych a na świecie 964 wśród wszystkich typów uczelni w rankingu szkół wyższych perspektyw politechnika wrocławska zajęła w 2019 roku 3 miejsce wśród uczelni technicznych oraz 6 miejsce spośród wszystkich uczelni akademickich w polsce
Output:
Według webometrycznego rankingu uniwersytetów świata ze stycznia 2019, pokazującego zaangażowanie instytucji akademickich w Internecie, uczelnia zajmuje 5. miejsce w Polsce wśród uczelni technicznych, a na świecie 964. Wśród wszystkich typów uczelni w rankingu szkół wyższych perspektyw Politechnika Wrocławska zajęła w 2019 roku 3. miejsce wśród uczelni technicznych oraz 6. miejsce spośród wszystkich uczelni akademickich w Polsce
Config
[tool]
s3_endpoint = https://s3.clarin-pl.eu
models_s3_location=s3://workers/punctuator/models_2_0
models_cache_dir=/home/worker/models
languagetool_cache_dir=/home/worker/languagetool
max_context_size=256
overlap=20
device=cpu```
## LPMN
Punctuator have one optional argument `language` with options: `pl` `ru` `en` (defaults to pl):
filedir(/users/michal.pogoda)|any2txt|punctuator({"language":"pl"})
## Mountpoints
If you want to cache the models, you need to mount the directory of `/home/worker/models/`. Also, samba needs to be mounted as `/samba`
## Pushing models into production
Production models should be placed in models directory. Then, to push them into production all you need to do is to run `sync_to_s3.sh` script
```bash
./sync_to_s3.sh
Testing
There are example texts in the example_texts
directory. You can run punctuator, to predicth on those texts to see how well it is working for all available languages.
docker build . -t punctuator
docker run -it \
-v $(pwd)/example_texts:/test \
-v $(pwd)/data/models:/home/worker/models \
-v $(pwd)/data/lt:/home/worker/languagetool \
punctuator
--test