# Imports and configs

In [1]:
from experiment.luna.luna_record_provider import LunaRecordProvider
from sziszapangma.integration.experiment_manager import ExperimentManager
from sziszapangma.integration.repository.multi_files_experiment_repository import MultiFilesExperimentRepository
from sziszapangma.integration.path_filter import ExtensionPathFilter
from pymongo import MongoClient
from spacy.tokens.doc import Doc
import pandas as pd
from experiment.voicelab.voicelab_telco_record_provider import VoicelabTelcoRecordProvider
from sziszapangma.integration.repository.experiment_repository import ExperimentRepository
from dataclasses import dataclass

In [2]:
pd.set_option('display.max_rows', None)

# Load datasets and other pipeline objects

In [3]:
VOICELAB_DATASET_DIRECTORY = 'experiment_data/dataset/voicelab_cbiz_testset_20220322'
LUNA_DATASET_DIRECTORY = 'experiment_data/dataset/LUNA.PL'

In [4]:
## repository collections
GOLD_TRANSCRIPT = 'gold_transcript'
GOLD_TRANSCRIPT_SPACY = 'gold_transcript_spacy'

TECHMO_POLISH_ASR = 'techmo_polish_asr'
WORD_TECHMO_MERTICS_WER = 'word_techmo_metrics_wer'
WORD_TECHMO_ALIGNMENT_WER = 'word_techmo_alignment_wer'
TECHMO_SPACY = 'techmo_spacy'
POS_TECHMO_ALIGNMENT_WER = 'pos_techmo_alignment_wer'
POS_TECHMO_METRICS_WER = 'pos_techmo_metrics_wer'

AJN_POLISH_ASR = 'ajn_polish_asr'
WORD_AJN_MERTICS_WER = 'word_ajn_metrics_wer'
WORD_AJN_ALIGNMENT_WER = 'word_ajn_alignment_wer'
AJN_SPACY = 'ajn_spacy'
POS_AJN_ALIGNMENT_WER = 'pos_ajn_metrics_wer'
POS_AJN_METRICS_WER = 'pos_ajn_alignment_wer'

In [5]:
@dataclass
class CollectionsConfig:
    config_name: str
    gold_transcript: str
    gold_transcript_spacy: str
    asr: str
    word_asr_metric_wer: str
    word_asr_alignment_wer: str
    asr_spacy: str
    pos_asr_metric_wer: str
    pos_asr_alignment_wer: str

In [6]:
techmo_connections_config = CollectionsConfig(
    config_name='TECHMO ASR',
    gold_transcript=GOLD_TRANSCRIPT,
    gold_transcript_spacy=GOLD_TRANSCRIPT_SPACY,
    asr=TECHMO_POLISH_ASR,
    word_asr_metric_wer=WORD_TECHMO_MERTICS_WER,
    word_asr_alignment_wer=WORD_TECHMO_ALIGNMENT_WER,
    asr_spacy=TECHMO_SPACY,
    pos_asr_metric_wer=POS_TECHMO_METRICS_WER,
    pos_asr_alignment_wer=POS_TECHMO_ALIGNMENT_WER
)
ajn_connections_config = CollectionsConfig(
    config_name='AJN ASR',
    gold_transcript=GOLD_TRANSCRIPT,
    gold_transcript_spacy=GOLD_TRANSCRIPT_SPACY,
    asr=AJN_POLISH_ASR,
    word_asr_metric_wer=WORD_AJN_MERTICS_WER,
    word_asr_alignment_wer=WORD_AJN_ALIGNMENT_WER,
    asr_spacy=AJN_SPACY,
    pos_asr_metric_wer=POS_AJN_ALIGNMENT_WER,
    pos_asr_alignment_wer=POS_AJN_METRICS_WER
)

In [7]:
voicelab_experiment_repository = MultiFilesExperimentRepository(
    'experiment_data/pipeline',
    'asr_benchmark_voicelab_cbiz_testset_20220322'
)
luna_experiment_repository = MultiFilesExperimentRepository(
    'experiment_data/pipeline',
    'asr_benchmark_luna'
)
print(f'voicelab examples count {len(voicelab_experiment_repository.get_all_record_ids())}')
print(f'luna examples count {len(luna_experiment_repository.get_all_record_ids())}')

voicelab examples count 800
luna examples count 500


In [8]:
voicelab_record_provider = VoicelabTelcoRecordProvider(ExtensionPathFilter(
    root_directory=VOICELAB_DATASET_DIRECTORY,
    extension='wav',
), relation_manager_root_path='experiment_data/dataset_relation_manager_data/voicelab_cbiz_testset_20220322')

luna_record_provider = LunaRecordProvider(ExtensionPathFilter(
    root_directory=f'{LUNA_DATASET_DIRECTORY}/LUNA.PL',
    extension='wav',
), relation_manager_root_path='experiment_data/dataset_relation_manager_data/luna')

In [16]:
def get_gold_transcript_for(record_id: str, experiment_repository: ExperimentRepository, 
                            collections_config: CollectionsConfig) -> str:
    gold_trnascript_property = experiment_repository.get_property_for_key(
        record_id, collections_config.gold_transcript)
    return ' '.join([it['word'] for it in gold_trnascript_property])

def get_asr_transcript_for(record_id: str, experiment_repository: ExperimentRepository,
                           collections_config: CollectionsConfig) -> str:
    gold_trnascript_property = experiment_repository.get_property_for_key(record_id, collections_config.asr)
    return gold_trnascript_property['full_text']

def get_word_alignment_df(record_id: str, experiment_repository: ExperimentRepository, 
                        collections_config: CollectionsConfig) -> pd.DataFrame:
    word_alignment_wer = experiment_repository.get_property_for_key(record_id, 
                                                                    collections_config.word_asr_alignment_wer)
    arr = [
        {
            'step_type': it['step_type'],
            'reference_word_text': it['step_words']['reference_word']['text'] 
            if 'reference_word' in it['step_words'] else '',
            'hypothesis_word_text': it['step_words']['hypothesis_word']['text']
            if 'hypothesis_word' in it['step_words'] else '',
        }
        for it in word_alignment_wer
    ]
    return pd.DataFrame(arr)


def get_pos_alignment_df(record_id: str, experiment_repository: ExperimentRepository, 
                        collections_config: CollectionsConfig) -> pd.DataFrame:
    pos_alignment_wer = experiment_repository.get_property_for_key(record_id, 
                                                                   collections_config.pos_asr_alignment_wer)
    gold_transcript_spacy = experiment_repository.get_property_for_key(record_id,
                                                                       collections_config.gold_transcript_spacy)
    gold_trnascript_spacy_word_dict = {it['id']: it['word'] for it in gold_transcript_spacy}
    asr_spacy = experiment_repository.get_property_for_key(record_id, collections_config.asr_spacy)
    asr_spacy_word_dict = {it['id']: it['word'] for it in asr_spacy}
    arr = [
        {
            'step_type': it['step_type'],
            'reference_word_pos': it['step_words']['reference_word']['text'] 
            if 'reference_word' in it['step_words'] else '',
            'reference_word_text': gold_trnascript_spacy_word_dict[it['step_words']['reference_word']['id']] 
            if 'reference_word' in it['step_words'] else '',
            'hypothesis_word_pos': it['step_words']['hypothesis_word']['text']
            if 'hypothesis_word' in it['step_words'] else '',
            'hypothesis_word_text': asr_spacy_word_dict[it['step_words']['hypothesis_word']['id']] 
            if 'hypothesis_word' in it['step_words'] else ''
        }
        for it in pos_alignment_wer
    ]
    return pd.DataFrame(arr)
    
    
def show_report_for(record_id: str, experiment_repository: ExperimentRepository,
                    collections_config: CollectionsConfig):
    print('record_id:', record_id)
    print('properties_confiog:', collections_config.config_name)
    print()
    print(f'gold transcript: {get_gold_transcript_for(record_id, experiment_repository, collections_config)}')    
    print()
    print(f'asr transcript: {get_asr_transcript_for(record_id, experiment_repository, collections_config)}')
    print()
    print(f"word wer {experiment_repository.get_property_for_key(record_id, collections_config.word_asr_metric_wer)}")
    print()
    print(f"pos wer {experiment_repository.get_property_for_key(record_id, collections_config.pos_asr_metric_wer)}")
    print()
    display(get_word_alignment_df(record_id, experiment_repository, collections_config))
    print()
    display(get_pos_alignment_df(record_id, experiment_repository, collections_config))
    print('--------------------------------------------------------------')
    print('--------------------------------------------------------------')
    print('--------------------------------------------------------------')

# Report for LUNA and TECHMO ASR

In [17]:
for it in list(luna_record_provider.get_all_records())[:3]:
    show_report_for(it, luna_experiment_repository, techmo_connections_config)

record_id: LUNA.PL__KIEDY__DOBRAJAKOSC__F__2_2007-03-27_10_24_45__2_2007-03-27_10_24_45
properties_confiog: TECHMO ASR

gold transcript: xxx dzień dobry dzień dobry ja chciałam zapytać się o tramwaj trzydzieści dwa czy miał zmianę może rozkładu ? a już sprawdzę chwileczkę dziękuję trzydzieści dwa tak ma zmieniony a mam taką prośbę mógłby pan podać mi tramwaje niskopokładowe w jakich godzinach teraz jeżdżą a skąd ? z Czynszowej z pętli z Pragi wszystkie w ciągu dnia ? to znaczy nie może od godziny dwunastej pan mi podyktuje na dwunasta trzydzieści trzy tak czternasta zero trzy tak i jeszcze piętnasta dwadzieścia trzy piętnasta dwadzieścia trzy dziękuję ślicznie do widzenia proszę bardzo do widzenia

asr transcript: dzień dobry dzień dobry ja chciałam zapytać się o tramwaj 32 czy miał zmianę może rozkładu a już sprawdzę chwileczkę 32 tak ma zmieniony a mam taką prośbę mógłby pan podać mi tylko pogodowe w jakich godzinach teraz je archont czynszowej z pętli z pragi wszystkie w ciągu dnia 

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,DELETION,xxx,
1,CORRECT,dzień,dzień
2,CORRECT,dobry,dobry
3,CORRECT,dzień,dzień
4,CORRECT,dobry,dobry
5,CORRECT,ja,ja
6,CORRECT,chciałam,chciałam
7,CORRECT,zapytać,zapytać
8,CORRECT,się,się
9,CORRECT,o,o





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,DELETION,PRON,xxx,,
1,CORRECT,NOUN,dzień,NOUN,dzień
2,CORRECT,ADJ,dobry,ADJ,dobry
3,CORRECT,NOUN,dzień,NOUN,dzień
4,CORRECT,ADJ,dobry,ADJ,dobry
5,CORRECT,PRON,ja,PRON,ja
6,CORRECT,VERB,chciałam,VERB,chciałam
7,CORRECT,VERB,zapytać,VERB,zapytać
8,CORRECT,PRON,się,PRON,się
9,CORRECT,ADP,o,ADP,o


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------
record_id: LUNA.PL__CZYJEDZIEPRZEZ__DOBRAJAKOSC__F__2_2007-04-02_20_13_42__2_2007-04-02_20_13_42
properties_confiog: TECHMO ASR

gold transcript: dobry wieczór xxx w czym mogę pomóc ? dobry wieczór panom proszę pana mam prośbę potrzebuję się dostać na ulicę Karową a mieszkam na Jelonkach w pobliżu Hali Człuchowskiej mam spod domu autobus pięćset sześć nie wiem czy nim gdzieś się tam dostanę na na Wybrzeże na Karową proszę pani tak no pięćset sześć do przystanku Biblioteka Uniwersytecka tak no i tutaj trzeba trzysta metrów do przodu dojść jest ulica Karowa aha czyli tam nie muszę dojeżdżać niczym ? nie no może pani podjechać jeden przystanek sto osiemnaście albo sto pięćdziesiąt aha tyle że te linie bardzo rzadko jeżdżą bo sto osiemnaście jeździ raz na pół godziny aha a sto pięćdziesiąt raz na dwadzie

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,CORRECT,dobry,dobry
1,CORRECT,wieczór,wieczór
2,DELETION,xxx,
3,CORRECT,w,w
4,CORRECT,czym,czym
5,CORRECT,mogę,mogę
6,CORRECT,pomóc,pomóc
7,DELETION,?,
8,CORRECT,dobry,dobry
9,CORRECT,wieczór,wieczór





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,CORRECT,ADJ,dobry,ADJ,dobry
1,CORRECT,NOUN,wieczór,NOUN,wieczór
2,DELETION,PROPN,xxx,,
3,CORRECT,ADP,w,ADP,w
4,CORRECT,PRON,czym,PRON,czym
5,CORRECT,VERB,mogę,VERB,mogę
6,CORRECT,VERB,pomóc,VERB,pomóc
7,DELETION,PUNCT,?,,
8,CORRECT,ADJ,dobry,ADJ,dobry
9,CORRECT,NOUN,wieczór,NOUN,wieczór


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------
record_id: LUNA.PL__CZYJEDZIEPRZEZ__DOBRAJAKOSC__F__2_2007-04-04_18_43_17__2_2007-04-04_18_43_17
properties_confiog: TECHMO ASR

gold transcript: dzień dobry przy telefonie xxx słucham proszę pana od Dworca Wileńskiego do elektrowni do Elektrociepłowni Żerań jakimi autobusem dojechać czy sto dwadzieścia przy Dworcu Wileńskim do ale do Żerania pani chce tak elektrownia Żerań tak tak Elektrociepłownia to znaczy no nie sto dwadzieścia to nie to proszę pani proponuję autobus znaczy naj~ dobry byłby też tramwaj dwadzieścia jeden do sa~ dwadzieścia jeden tak tutaj spod ze Śpiących ? tak tak z ulicy Targowej do samej pętli on ma pętlę na Żeraniu FSO tam niedaleko od właśnie tej elektrowni ewentualnie jeżeli pani życzy autobus to już zaraz sprawdzę jaki autobus już momencik autobus sto czterdzieści cztery bę

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,CORRECT,dzień,dzień
1,CORRECT,dobry,dobry
2,CORRECT,przy,przy
3,CORRECT,telefonie,telefonie
4,DELETION,xxx,
5,CORRECT,słucham,słucham
6,CORRECT,proszę,proszę
7,CORRECT,pana,pana
8,CORRECT,od,od
9,SUBSTITUTION,Dworca,dworca





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,CORRECT,NOUN,dzień,NOUN,dzień
1,CORRECT,ADJ,dobry,ADJ,dobry
2,CORRECT,ADP,przy,ADP,przy
3,DELETION,NOUN,telefonie,,
4,CORRECT,NOUN,xxx,NOUN,telefonie
5,CORRECT,VERB,słucham,VERB,słucham
6,CORRECT,VERB,proszę,VERB,proszę
7,CORRECT,NOUN,pana,NOUN,pana
8,CORRECT,ADP,od,ADP,od
9,CORRECT,NOUN,Dworca,NOUN,dworca


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------


# Report for LUNA and AJN ASR

In [18]:
for it in list(luna_record_provider.get_all_records())[:3]:
    show_report_for(it, luna_experiment_repository, ajn_connections_config)

record_id: LUNA.PL__KIEDY__DOBRAJAKOSC__F__2_2007-03-27_10_24_45__2_2007-03-27_10_24_45
properties_confiog: AJN ASR

gold transcript: xxx dzień dobry dzień dobry ja chciałam zapytać się o tramwaj trzydzieści dwa czy miał zmianę może rozkładu ? a już sprawdzę chwileczkę dziękuję trzydzieści dwa tak ma zmieniony a mam taką prośbę mógłby pan podać mi tramwaje niskopokładowe w jakich godzinach teraz jeżdżą a skąd ? z Czynszowej z pętli z Pragi wszystkie w ciągu dnia ? to znaczy nie może od godziny dwunastej pan mi podyktuje na dwunasta trzydzieści trzy tak czternasta zero trzy tak i jeszcze piętnasta dwadzieścia trzy piętnasta dwadzieścia trzy dziękuję ślicznie do widzenia proszę bardzo do widzenia

asr transcript: a że dobre pięta echem na tym się akurat i lekka pęczniał i ale loże składu i już prawie tyleż trzydzieści dwa <unk> - tak minione a nocą groźne mutanty wodach i grandmorina pokładowej like heaven &quot; i &quot; by całej tej sprawie wszystkie w ciągu dnia będzie można m.in. mar

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,DELETION,xxx,
1,SUBSTITUTION,dzień,a
2,SUBSTITUTION,dobry,że
3,SUBSTITUTION,dzień,dobre
4,SUBSTITUTION,dobry,pięta
5,SUBSTITUTION,ja,echem
6,SUBSTITUTION,chciałam,na
7,SUBSTITUTION,zapytać,tym
8,CORRECT,się,się
9,DELETION,o,





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,SUBSTITUTION,PRON,xxx,CCONJ,a
1,SUBSTITUTION,NOUN,dzień,SCONJ,że
2,CORRECT,ADJ,dobry,ADJ,dobre
3,CORRECT,NOUN,dzień,NOUN,pięta
4,DELETION,ADJ,dobry,,
5,DELETION,PRON,ja,,
6,SUBSTITUTION,VERB,chciałam,NOUN,echem
7,SUBSTITUTION,VERB,zapytać,ADP,na
8,CORRECT,PRON,się,PRON,tym
9,DELETION,ADP,o,,


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------
record_id: LUNA.PL__CZYJEDZIEPRZEZ__DOBRAJAKOSC__F__2_2007-04-02_20_13_42__2_2007-04-02_20_13_42
properties_confiog: AJN ASR

gold transcript: dobry wieczór xxx w czym mogę pomóc ? dobry wieczór panom proszę pana mam prośbę potrzebuję się dostać na ulicę Karową a mieszkam na Jelonkach w pobliżu Hali Człuchowskiej mam spod domu autobus pięćset sześć nie wiem czy nim gdzieś się tam dostanę na na Wybrzeże na Karową proszę pani tak no pięćset sześć do przystanku Biblioteka Uniwersytecka tak no i tutaj trzeba trzysta metrów do przodu dojść jest ulica Karowa aha czyli tam nie muszę dojeżdżać niczym ? nie no może pani podjechać jeden przystanek sto osiemnaście albo sto pięćdziesiąt aha tyle że te linie bardzo rzadko jeżdżą bo sto osiemnaście jeździ raz na pół godziny aha a sto pięćdziesiąt raz na dwadzieści

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,CORRECT,dobry,dobry
1,DELETION,wieczór,
2,DELETION,xxx,
3,DELETION,w,
4,DELETION,czym,
5,DELETION,mogę,
6,SUBSTITUTION,pomóc,wieczor
7,SUBSTITUTION,?,promocji
8,SUBSTITUTION,dobry,tempie
9,SUBSTITUTION,wieczór,córka





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,CORRECT,ADJ,dobry,ADJ,dobry
1,CORRECT,NOUN,wieczór,NOUN,wieczor
2,SUBSTITUTION,PROPN,xxx,NOUN,promocji
3,SUBSTITUTION,ADP,w,NOUN,tempie
4,SUBSTITUTION,PRON,czym,NOUN,córka
5,CORRECT,VERB,mogę,VERB,hanka
6,SUBSTITUTION,VERB,pomóc,PROPN,pn1
7,CORRECT,PUNCT,?,PUNCT,<
8,DELETION,ADJ,dobry,,
9,DELETION,NOUN,wieczór,,


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------
record_id: LUNA.PL__CZYJEDZIEPRZEZ__DOBRAJAKOSC__F__2_2007-04-04_18_43_17__2_2007-04-04_18_43_17
properties_confiog: AJN ASR

gold transcript: dzień dobry przy telefonie xxx słucham proszę pana od Dworca Wileńskiego do elektrowni do Elektrociepłowni Żerań jakimi autobusem dojechać czy sto dwadzieścia przy Dworcu Wileńskim do ale do Żerania pani chce tak elektrownia Żerań tak tak Elektrociepłownia to znaczy no nie sto dwadzieścia to nie to proszę pani proponuję autobus znaczy naj~ dobry byłby też tramwaj dwadzieścia jeden do sa~ dwadzieścia jeden tak tutaj spod ze Śpiących ? tak tak z ulicy Targowej do samej pętli on ma pętlę na Żeraniu FSO tam niedaleko od właśnie tej elektrowni ewentualnie jeżeli pani życzy autobus to już zaraz sprawdzę jaki autobus już momencik autobus sto czterdzieści cztery będzi

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,SUBSTITUTION,dzień,dobre
1,SUBSTITUTION,dobry,sztokholm
2,SUBSTITUTION,przy,shaw
3,SUBSTITUTION,telefonie,-
4,SUBSTITUTION,xxx,gortat
5,SUBSTITUTION,słucham,<unk>
6,SUBSTITUTION,proszę,rek
7,SUBSTITUTION,pana,prof
8,SUBSTITUTION,od,gajek
9,SUBSTITUTION,Dworca,pracuje





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,INSERTION,,,ADJ,dobre
1,INSERTION,,,NOUN,sztokholm
2,CORRECT,NOUN,dzień,NOUN,shaw
3,INSERTION,,,PUNCT,-
4,CORRECT,ADJ,dobry,ADJ,gortat
5,INSERTION,,,PUNCT,<
6,INSERTION,,,NOUN,unk
7,SUBSTITUTION,ADP,przy,PUNCT,>
8,CORRECT,NOUN,telefonie,NOUN,rek
9,INSERTION,,,X,prof


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------


# Report for VOICELAB and TECHMO ASR

In [19]:
for it in list(voicelab_record_provider.get_all_records())[:3]:
    show_report_for(it, voicelab_experiment_repository, techmo_connections_config)

record_id: medyczna__cbiz_tc_4898.clnt
properties_confiog: TECHMO ASR

gold transcript: dzień dobry proszę pani chciałbym u państwa wykonać badania krwi dzwonię żeby się zapytać jaka by to była cena i tak mi najbardziej zależy na badaniach by zbadać tsh ft4 i antytpo jaka to by by wyszła u państwa cena tak tak a te badania podstawowe cena jeszcze jaka by była tak wie pani co no tak myślę teraz no to zróbmy ten to powiedzmy że ten ten rozszerzony pakiet dziewięćdziesięciu dziewięciu złotych powiedzmy że na to bym się chciał zapisać do państwa tylko jakby mi pani jeszcze tam powiedziała jak się przygotować do tych badań no tak nie no to to wie pani trzy dni to nie jest nie wiadomo ile czasu a może mi pani podać jakiś no wstępny termin kiedy tam macie wolny bo ja tak naprawdę to już nawet w tym tygodniu bym mógł się zapisać ale nie wiem jak tam państwo stoicie z terminami z rana czyli na przykład no nie wiem na godzinę siódmą ósmą gdzieś tak o dobra no to tak dobrze oczywiście ignacy woźn

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,INSERTION,,musisz
1,INSERTION,,pierwsze
2,INSERTION,,bo
3,INSERTION,,moja
4,INSERTION,,mama
5,INSERTION,,na
6,INSERTION,,pewno
7,INSERTION,,nie
8,INSERTION,,rusza
9,INSERTION,,dobra





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,INSERTION,,,VERB,musisz
1,INSERTION,,,ADJ,pierwsze
2,INSERTION,,,SCONJ,bo
3,INSERTION,,,DET,moja
4,CORRECT,NOUN,dzień,NOUN,mama
5,INSERTION,,,ADP,na
6,INSERTION,,,ADV,pewno
7,INSERTION,,,PART,nie
8,INSERTION,,,VERB,rusza
9,SUBSTITUTION,ADJ,dobry,NOUN,dobra


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------
record_id: bankowe__cbiz_tc_1489.clnt
properties_confiog: TECHMO ASR

gold transcript: pani dominiko witam serdecznie mam problem chciałbym zmienić numer telefonu mój stary został zablokowany do państwa usług potrzebuję kody sms i ich nie dostaję bo bo po prostu nie ma tego numeru taką mam nadzieję myślę że myślę że tak moje nazwisko urbaniak na imię grzegorz dziewięćdziesiąt cztery zero cztery osiemnaście trzydzieści dwa sześćset trzydzieści cztery tak dokładnie posiadam tak zmienia się zmienił chciałbym tylko numer telefonu gdyż tak jak powiedziałem został zablokowany nie nic się nie zmieniło wie pani co super fajnie tylko w miarę jak bym poprosił o przyspieszenie tempa to byłbym wdzięczny bardzo dziękuję ja też ale ja też ja też mam trochę ograniczony czas a zależy mi na załatwieniu tego jak najsz

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,CORRECT,pani,pani
1,CORRECT,dominiko,dominiko
2,CORRECT,witam,witam
3,CORRECT,serdecznie,serdecznie
4,CORRECT,mam,mam
5,CORRECT,problem,problem
6,CORRECT,chciałbym,chciałbym
7,CORRECT,zmienić,zmienić
8,CORRECT,numer,numer
9,CORRECT,telefonu,telefonu





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,CORRECT,NOUN,pani,NOUN,pani
1,CORRECT,ADJ,dominiko,ADJ,dominiko
2,CORRECT,VERB,witam,VERB,witam
3,CORRECT,ADV,serdecznie,ADV,serdecznie
4,CORRECT,VERB,mam,VERB,mam
5,CORRECT,NOUN,problem,NOUN,problem
6,CORRECT,VERB,chciałbym,VERB,chciałbym
7,CORRECT,VERB,zmienić,VERB,zmienić
8,CORRECT,NOUN,numer,NOUN,numer
9,CORRECT,NOUN,telefonu,NOUN,telefonu


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------
record_id: medyczna__cbiz_tc_37.agnt
properties_confiog: TECHMO ASR

gold transcript: dzień dobry przychodnia medmed w czym mogę pomóc rozumiem w takim razie oczywiście postaram się pomóc proszę mi powiedzieć czy skierowanie które pani dostała to jest od lekarza poz tego pierwszego kontaktu lekarza dziękuję to w takim razie poprosiłabym o pani imię i nazwisko dziękuję bardzo i potrzebowałabym adres pani placówki tam adres jakby siedziby tego lekarza który wystawił pani skierowanie tak tak dziękuję pani bardzo i proszę dać mi chwilę ja już sprawdzam jak wyglądają wolne terminy to tak z tego co widzę to bo rozumiem że lekarz jest pani obojętny tylko zależy pani na tym żeby szybciej się dostać tak to proszę pani najszybciej z tego co widzę to jest dopiero piętnasty sierpnia nie no to jest nfz prywatnie 

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,DELETION,dzień,
1,DELETION,dobry,
2,CORRECT,przychodnia,przychodnia
3,SUBSTITUTION,medmed,meble
4,CORRECT,w,w
5,CORRECT,czym,czym
6,CORRECT,mogę,mogę
7,CORRECT,pomóc,pomóc
8,CORRECT,rozumiem,rozumiem
9,CORRECT,w,w





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,DELETION,NOUN,dzień,,
1,DELETION,ADJ,dobry,,
2,CORRECT,NOUN,przychodnia,NOUN,przychodnia
3,CORRECT,NOUN,medmed,NOUN,meble
4,CORRECT,ADP,w,ADP,w
5,CORRECT,PRON,czym,PRON,czym
6,CORRECT,VERB,mogę,VERB,mogę
7,CORRECT,VERB,pomóc,VERB,pomóc
8,CORRECT,VERB,rozumiem,VERB,rozumiem
9,CORRECT,ADP,w,ADP,w


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------
