Skip to content
Snippets Groups Projects
user avatar
Michal Pogoda authored
93a97127

Punctuator

A service that automatically adds punctuation to raw word-stream (eg. from speech2text) for polish language.

Example input:

według webometrycznego rankingu uniwersytetów świata ze stycznia 2019 pokazującego zaangażowanie instytucji akademickich w internecie uczelnia zajmuje 5 miejsce w polsce wśród uczelni technicznych a na świecie 964 wśród wszystkich typów uczelni w rankingu szkół wyższych perspektyw politechnika wrocławska zajęła w 2019 roku 3 miejsce wśród uczelni technicznych oraz 6 miejsce spośród wszystkich uczelni akademickich w polsce

Output:

Według webometrycznego rankingu uniwersytetów świata ze stycznia 2019, pokazującego zaangażowanie instytucji akademickich w Internecie, uczelnia zajmuje 5. miejsce w Polsce wśród uczelni technicznych, a na świecie 964. Wśród wszystkich typów uczelni w rankingu szkół wyższych perspektyw Politechnika Wrocławska zajęła w 2019 roku 3. miejsce wśród uczelni technicznych oraz 6. miejsce spośród wszystkich uczelni akademickich w Polsce

Config

[deployment]
device = cpu ; Device on which inference will be made (eg. cpu, cuda:0 etc)
model_path = /model/punctuator ; Path where the model will be placed
max_context_size = 256 ; Number of tokens that will be oonsidered in prediciton at once. Must be between in range 2*overlap+1 to 512
overlap = 20 ; The number of tokens from the environment that will be taken at inference for a text fragment

LPMN

filedir(/users/michal.pogoda)|any2txt|punctuator

Mountpoints

Directory where the model will be downloaded (~500Mb) needs to be mounted at /home/worker/model/punctuator. Mount /home/worker/model into directory if you want to make it persitent