Punctuator
A service that automatically adds punctuation to raw word-stream (eg. from speech2text) for polish language.
Example input:
według webometrycznego rankingu uniwersytetów świata ze stycznia 2019 pokazującego zaangażowanie instytucji akademickich w internecie uczelnia zajmuje 5 miejsce w polsce wśród uczelni technicznych a na świecie 964 wśród wszystkich typów uczelni w rankingu szkół wyższych perspektyw politechnika wrocławska zajęła w 2019 roku 3 miejsce wśród uczelni technicznych oraz 6 miejsce spośród wszystkich uczelni akademickich w polsce
Output:
Według webometrycznego rankingu uniwersytetów świata ze stycznia 2019, pokazującego zaangażowanie instytucji akademickich w Internecie, uczelnia zajmuje 5. miejsce w Polsce wśród uczelni technicznych, a na świecie 964. Wśród wszystkich typów uczelni w rankingu szkół wyższych perspektyw Politechnika Wrocławska zajęła w 2019 roku 3. miejsce wśród uczelni technicznych oraz 6. miejsce spośród wszystkich uczelni akademickich w Polsce
Config
[deployment]
device = cpu ; Device on which inference will be made (eg. cpu, cuda:0 etc)
model_path = /model/punctuator ; Path where the model will be placed
max_context_size = 256 ; Number of tokens that will be oonsidered in prediciton at once. Must be between in range 2*overlap+1 to 512
overlap = 20 ; The number of tokens from the environment that will be taken at inference for a text fragment
LPMN
filedir(/users/michal.pogoda)|any2txt|punctuator
Mountpoints
Directory where the model will be downloaded (~500Mb) needs to be mounted at /home/worker/model/punctuator
. Mount /home/worker/model
into directory if you want to make it persitent