From ebda66335bd2890775e83eb1bce0b74dcbbc3948 Mon Sep 17 00:00:00 2001
From: Adam Radziszewski <adam.radziszewski@pwr.wroc.pl>
Date: Fri, 21 Oct 2011 14:50:11 +0200
Subject: [PATCH] slightly changed config for nkjp

---
 config/nkjp.ini | 143 ++++++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 143 insertions(+)
 create mode 100644 config/nkjp.ini

diff --git a/config/nkjp.ini b/config/nkjp.ini
new file mode 100644
index 0000000..ab067fd
--- /dev/null
+++ b/config/nkjp.ini
@@ -0,0 +1,143 @@
+; Configuration for tokenising Polish customised for compatibility with
+; the NKJP corpus. NOTE: the compatibility is not guaranteed, it is just our
+; intention.
+; Includes keeping together abbreviations with inflectional endings,
+; abbreviation lexicon (so far almost empty), URLs and numbers.
+
+; Employed token types:
+;  t -- word token or letters mixed with digits
+;  p -- punctiation or symbols
+;  a -- abbreviation ended with dot, possibly multipart (m.in.)
+
+;  th -- inflected acronym (acronym + hyphen + inflectional suffix)
+
+;  n -- integer
+;  n_f -- decimal fraction
+;  n_d -- date (dot- or hyphen-separated)
+;  n_t -- time (dot- or colon-separated)
+;  n_ip -- IP number
+;  tm -- e-mail address
+;  tu -- URL address
+;  ts -- symbol (not the above and something beside letters and apostrophe)
+
+[input]
+	token_type=t
+	srx=segment.srx
+	srx_language=pl_two
+	initial_whitespace=newline
+
+[layer:exc_0]
+; always split on symbols (S) and punctuation (P)
+; EXCEPT for two hyphens and ':;.,@$+~=/?&%#~_
+; these exceptions are for URLs, e-mails, numbers and hyphenated inflected abbrevs
+; NOTE: hyphens not included
+	class=split
+	separators=[[\p{S} \p{P}]-[\u002d \u2010 ' : ; \. , @ \$ \+ ~ \= / \? \& % # ~ _]]
+	separator_token_type=p
+
+[layer:suff_safe]
+; opening and closing punctuation, apostrophe, comma, colon, semicolon, quotation and exclamation mark
+; detach these as suffixes
+	class=affix_split
+	process_types=t
+	prefix_chars=[\p{Ps} ']
+	suffix_chars=[\p{Pe} ' , : ; \? !]
+	suffix_token_type=p
+	prefix_token_type=p
+
+[layer:a_classify]
+; abbrev regex classification
+		class=regexp
+	process_types=t
+	; consonant-only abbrevs (at least two letter long)
+	type:a=[BCÄ†DFGHJKLÅMNÅƒPRSÅšTVWXZÅ¹Å»bcÄ‡dfghjklÅ‚mnÅ„prsÅ›tvwxzÅºÅ¼][bcÄ‡dfghjklÅ‚mnÅ„prsÅ›tvwxzÅºÅ¼]+\.
+	; multipart abbrevs (m.in., op.cit.)
+	type:a=\p{Ll}{1,6}\.(\p{Lowercase}{1,6}\.)+
+
+[layer:a_lexicon]
+; recognise abbrevs listed in the lexicon
+	class=lexicon_caseless
+	process_types=t
+	token_type=a
+	lexicon_file=abbrevs.txt
+
+[layer:suff_dot]
+; detach token-final dots, each separately (contrary to the standard config, where dots are joined)
+	process_types=t
+	class=affix_split
+	suffix_chars=.
+	suffix_token_type=p
+	prefix_token_type=p
+
+[layer:tu_classify]
+; recognise likely e-mails and URLs
+	class=regexp
+	process_types=t
+	type:tm=[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}
+	type:tu=(([a-zA-Z]+)://)?((([a-zA-Z0-9-]+)(\.([a-zA-Z0-9-]+))*\.[a-zA-Z]{2,6})|((?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)))(:[0-9]{1,5})?(/[a-zA-Z0-9.,;\?|\'+&%\$#=~_-]+)*[/]?
+
+[layer:exc_1]
+; always split on symbols (S) and punctuation (P)
+; EXCEPT for two hyphens and ':.,
+; these exceptions are left for numbers and inflected abbrevs
+	class=split
+	process_types=t
+	separators=[[\p{S} \p{P}]-[\u002d \u2010 ' : \. ,]]
+	separator_token_type=p
+
+[layer:n_classify]
+; recognise numbers, date, time and IP numbers
+	class=regexp
+	process_types=t
+	type:n=[0-9]+
+	type:n_f=[0-9]+,[0-9]+
+	type:n_d=(((0[1-9]|[12][0-9]|3[01])[-/.](0[1-9]|1[012])[-/.]((1|2)\d)?\d\d)|((((1|2)\d)?\d\d\d\d)[-/.](0[1-9]|1[012])[-/.](0[1-9]|[12][0-9]|3[01])))
+	type:n_t=(24(:|[.])00|([01]?[0-9]|2[0-3])(:|[.])[0-5][0-9])((:|[.])[0-5][0-9])?
+	type:n_ip=([0-9]{1,3})(\.[0-9]{1,3}){3}
+
+[layer:exc_2]
+; now always split on :.,
+; two hyphens
+; these exceptions are left for inflected abbrevs
+	class=split
+	process_types=t
+	separators=:.,
+	separator_token_type=p
+
+[layer:th_classify]
+; PRL-u etc. -> th
+; other regex classification
+	class=regexp
+	process_types=t
+	type:th=\p{L}+['\u002d\u2010](?i:Ä…|iÄ…|jÄ…|etÄ…|otÄ…|tÄ…|ami|etami|otami|tami|iami|jami|em|iem|jem|etem|otem|tem|owie|iowie|jowie|etowie|otowie|towie|owi|iowi|jowi|etowi|otowi|towi|om|iom|jom|etom|otom|tom|Ä™|iÄ™|jÄ™|etÄ™|otÄ™|tÄ™|ach|iach|jach|etach|otach|tach|a|ia|ja|eta|ota|ta|u|etu|otu|tu|iu|ju|e|ie|ze|zie|ecie|cie|rze|je|ocie|i|eci|oci|ci|ii|ji|y|ety|oty|ty|Ã³w|etÃ³w|otÃ³w|tÃ³w|iÃ³w|jÃ³w|owiec|etowiec|otowiec|towiec|iowiec|jowiec|wiec|owca|etowca|otowca|towca|iowca|jowca|wca|owcowi|etowcowi|otowcowi|towcowi|iowcowi|jowcowi|wcowi|owcem|etowcem|otowcem|towcem|iowcem|jowcem|wcem|owcu|etowcu|otowcu|towcu|iowcu|jowcu|wcu|owcy|etowcy|otowcy|towcy|iowcy|jowcy|wcy|owcÃ³w|etowcÃ³w|otowcÃ³w|towcÃ³w|iowcÃ³w|jowcÃ³w|wcÃ³w|owcom|etowcom|otowcom|towcom|iowcom|jowcom|wcom|owcami|etowcami|otowcami|towcami|iowcami|jowcami|wcami|owcach|etowcach|otowcach|towcach|iowcach|jowcach|wcach|Ã³wka|etÃ³wka|otÃ³wka|tÃ³wka|iÃ³wka|jÃ³wka|wka|Ã³wce|etÃ³wce|otÃ³wce|tÃ³wce|iÃ³wce|jÃ³wce|wce|Ã³wkÄ™|etÃ³wkÄ™|otÃ³wkÄ™|tÃ³wkÄ™|iÃ³wkÄ™|jÃ³wkÄ™|wkÄ™|Ã³wkÄ…|etÃ³wkÄ…|otÃ³wkÄ…|tÃ³wkÄ…|iÃ³wkÄ…|jÃ³wkÄ…|wkÄ…|Ã³wko|etÃ³wko|otÃ³wko|tÃ³wko|iÃ³wko|jÃ³wko|wko|Ã³wki|etÃ³wki|otÃ³wki|tÃ³wki|iÃ³wki|jÃ³wki|wki|Ã³wa|etÃ³wa|otÃ³wa|tÃ³wa|iÃ³wa|jÃ³wa|wa|Ã³wie|etÃ³wie|otÃ³wie|tÃ³wie|iÃ³wie|jÃ³wie|wie|Ã³wÄ™|etÃ³wÄ™|otÃ³wÄ™|tÃ³wÄ™|iÃ³wÄ™|jÃ³wÄ™|wÄ™|Ã³wÄ…|etÃ³wÄ…|otÃ³wÄ…|tÃ³wÄ…|iÃ³wÄ…|jÃ³wÄ…|wÄ…|Ã³wo|etÃ³wo|otÃ³wo|tÃ³wo|iÃ³wo|jÃ³wo|wo|Ã³wy|etÃ³wy|otÃ³wy|tÃ³wy|iÃ³wy|jÃ³wy|wy|Ã³wek|etÃ³wek|otÃ³wek|tÃ³wek|iÃ³wek|jÃ³wek|wek|Ã³wkom|etÃ³wkom|otÃ³wkom|tÃ³wkom|iÃ³wkom|jÃ³wkom|wkom|Ã³wkach|etÃ³wkach|otÃ³wkach|tÃ³wkach|iÃ³wkach|jÃ³wkach|wkach|Ã³wkami|etÃ³wkami|otÃ³wkami|tÃ³wkami|iÃ³wkami|jÃ³wkami|Ã³wom|etÃ³wom|otÃ³wom|tÃ³wom|iÃ³wom|jÃ³wom|wom|Ã³wach|etÃ³wach|otÃ³wach|tÃ³wach|iÃ³wach|jÃ³wach|wach|Ã³wami|etÃ³wami|otÃ³wami|tÃ³wami|iÃ³wami|jÃ³wami|emu|mu|ego|go|ym|im|m|owski|etowski|otowski|towski|wski|iowski|jowski|wski|owskiego|etowskiego|otowskiego|towskiego|wskiego|iowskiego|jowskiego|wskiego|owskiemu|etowskiemu|otowskiemu|towskiemu|wskiemu|iowskiemu|jowskiemu|wskiemu|owskim|etowskim|otowskim|towskim|wskim|iowskim|jowskim|wskim|owscy|etowscy|otowscy|towscy|wscy|iowscy|jowscy|wscy|owskich|etowskich|otowskich|towskich|wskich|iowskich|jowskich|wskich|owskimi|etowskimi|otowskimi|towskimi|wskimi|iowskimi|jowskimi|owska|etowska|otowska|towska|wska|iowska|jowska|owskiej|etowskiej|otowskiej|towskiej|wskiej|iowskiej|jowskiej|owskÄ…|etowskÄ…|otowskÄ…|towskÄ…|wskÄ…|iowskÄ…|jowskÄ…|owskie|etowskie|otowskie|towskie|wskie|iowskie|jowskie|owy|etowy|otowy|towy|wy|iowy|jowy|owego|etowego|otowego|towego|wego|iowego|jowego|owemu|etowemu|otowemu|towemu|wemu|iowemu|jowemu|owym|etowym|otowym|towym|wym|iowym|jowym|owi|etowi|otowi|towi|wi|iowi|jowi|owych|etowych|otowych|towych|wych|iowych|jowych|owymi|etowymi|otowymi|towymi|wymi|iowymi|jowymi|owa|etowa|otowa|towa|wa|iowa|jowa|owej|etowej|otowej|towej|wej|iowej|jowej|owÄ…|etowÄ…|otowÄ…|towÄ…|wÄ…|iowÄ…|jowÄ…|owe|etowe|otowe|towe|we|iowe|jowe)
+
+[layer:hyphen]
+; now get the remaining hyphens (hyphen-minus, hyphen proper) separately (contrary to the main config)
+	class=split
+	process_types=t
+	separators=\u002d\u2010
+	separator_token_type=p
+
+[layer:ts_classify]
+; PRL-u etc. -> th
+; other regex classification
+	class=regexp
+	process_types=t
+	type:ts=\p{L}*\P{L}.*
+
+[layers]
+	layer=exc_0
+	layer=suff_safe
+	layer=a_lexicon
+	layer=a_classify
+	layer=suff_dot
+	layer=tu_classify
+	layer=exc_1
+	layer=n_classify
+	layer=exc_2
+	layer=th_classify
+	layer=hyphen
+	layer=ts_classify
+
+[debug]
+	format=$orth/$type:$ws\n
-- 
GitLab