# Imports and configs

In [1]:
from experiment.luna.luna_record_provider import LunaRecordProvider
from sziszapangma.integration.experiment_manager import ExperimentManager
from sziszapangma.integration.repository.multi_files_experiment_repository import MultiFilesExperimentRepository
from sziszapangma.integration.path_filter import ExtensionPathFilter
from pymongo import MongoClient
from spacy.tokens.doc import Doc
import pandas as pd
from experiment.voicelab.voicelab_telco_record_provider import VoicelabTelcoRecordProvider
from sziszapangma.integration.repository.experiment_repository import ExperimentRepository
from dataclasses import dataclass

In [2]:
pd.set_option('display.max_rows', None)

# Load datasets and other pipeline objects

In [3]:
VOICELAB_DATASET_DIRECTORY = 'experiment_data/dataset/voicelab_cbiz_testset_20220322'
LUNA_DATASET_DIRECTORY = 'experiment_data/dataset/LUNA.PL'

In [4]:
## repository collections
GOLD_TRANSCRIPT = 'gold_transcript'
GOLD_TRANSCRIPT_SPACY = 'gold_transcript_spacy'

TECHMO_POLISH_ASR = 'techmo_polish_asr'
WORD_TECHMO_MERTICS_WER = 'word_techmo_metrics_wer'
WORD_TECHMO_ALIGNMENT_WER = 'word_techmo_alignment_wer'
TECHMO_SPACY = 'techmo_spacy'
POS_TECHMO_ALIGNMENT_WER = 'pos_techmo_alignment_wer'
POS_TECHMO_METRICS_WER = 'pos_techmo_metrics_wer'

AJN_POLISH_ASR = 'ajn_polish_asr'
WORD_AJN_MERTICS_WER = 'word_ajn_metrics_wer'
WORD_AJN_ALIGNMENT_WER = 'word_ajn_alignment_wer'
AJN_SPACY = 'ajn_spacy'
POS_AJN_ALIGNMENT_WER = 'pos_ajn_metrics_wer'
POS_AJN_METRICS_WER = 'pos_ajn_alignment_wer'

In [5]:
@dataclass
class CollectionsConfig:
    config_name: str
    gold_transcript: str
    gold_transcript_spacy: str
    asr: str
    word_asr_metric_wer: str
    word_asr_alignment_wer: str
    asr_spacy: str
    pos_asr_metric_wer: str
    pos_asr_alignment_wer: str

In [6]:
techmo_connections_config = CollectionsConfig(
    config_name='TECHMO ASR',
    gold_transcript=GOLD_TRANSCRIPT,
    gold_transcript_spacy=GOLD_TRANSCRIPT_SPACY,
    asr=TECHMO_POLISH_ASR,
    word_asr_metric_wer=WORD_TECHMO_MERTICS_WER,
    word_asr_alignment_wer=WORD_TECHMO_ALIGNMENT_WER,
    asr_spacy=TECHMO_SPACY,
    pos_asr_metric_wer=POS_TECHMO_METRICS_WER,
    pos_asr_alignment_wer=POS_TECHMO_ALIGNMENT_WER
)
ajn_connections_config = CollectionsConfig(
    config_name='AJN ASR',
    gold_transcript=GOLD_TRANSCRIPT,
    gold_transcript_spacy=GOLD_TRANSCRIPT_SPACY,
    asr=AJN_POLISH_ASR,
    word_asr_metric_wer=WORD_AJN_MERTICS_WER,
    word_asr_alignment_wer=WORD_AJN_ALIGNMENT_WER,
    asr_spacy=AJN_SPACY,
    pos_asr_metric_wer=POS_AJN_ALIGNMENT_WER,
    pos_asr_alignment_wer=POS_AJN_METRICS_WER
)

In [7]:
voicelab_experiment_repository = MultiFilesExperimentRepository(
    'experiment_data/pipeline',
    'asr_benchmark_voicelab_cbiz_testset_20220322'
)
luna_experiment_repository = MultiFilesExperimentRepository(
    'experiment_data/pipeline',
    'asr_benchmark_luna'
)
print(f'voicelab examples count {len(voicelab_experiment_repository.get_all_record_ids())}')
print(f'luna examples count {len(luna_experiment_repository.get_all_record_ids())}')

voicelab examples count 801
luna examples count 501


In [8]:
voicelab_record_provider = VoicelabTelcoRecordProvider(ExtensionPathFilter(
    root_directory=VOICELAB_DATASET_DIRECTORY,
    extension='wav',
), relation_manager_root_path='experiment_data/dataset_relation_manager_data/voicelab_cbiz_testset_20220322')

luna_record_provider = LunaRecordProvider(ExtensionPathFilter(
    root_directory=f'{LUNA_DATASET_DIRECTORY}/LUNA.PL',
    extension='wav',
), relation_manager_root_path='experiment_data/dataset_relation_manager_data/luna')

In [9]:
def get_gold_transcript_for(record_id: str, experiment_repository: ExperimentRepository, 
                            collections_config: CollectionsConfig) -> str:
    gold_trnascript_property = experiment_repository.get_property_for_key(
        record_id, collections_config.gold_transcript)
    return ' '.join([it['word'] for it in gold_trnascript_property])

def get_asr_transcript_for(record_id: str, experiment_repository: ExperimentRepository,
                           collections_config: CollectionsConfig) -> str:
    gold_trnascript_property = experiment_repository.get_property_for_key(record_id, collections_config.asr)
    return gold_trnascript_property['full_text']

def get_word_alignment_df(record_id: str, experiment_repository: ExperimentRepository, 
                        collections_config: CollectionsConfig) -> pd.DataFrame:
    word_alignment_wer = experiment_repository.get_property_for_key(record_id, 
                                                                    collections_config.word_asr_alignment_wer)
    arr = [
        {
            'step_type': it['step_type'],
            'reference_word_text': it['step_words']['reference_word']['text'] 
            if 'reference_word' in it['step_words'] else '',
            'hypothesis_word_text': it['step_words']['hypothesis_word']['text']
            if 'hypothesis_word' in it['step_words'] else '',
        }
        for it in word_alignment_wer
    ]
    return pd.DataFrame(arr)


def get_pos_alignment_df(record_id: str, experiment_repository: ExperimentRepository, 
                        collections_config: CollectionsConfig) -> pd.DataFrame:
    pos_alignment_wer = experiment_repository.get_property_for_key(record_id, 
                                                                   collections_config.pos_asr_alignment_wer)
    gold_transcript_spacy = experiment_repository.get_property_for_key(record_id,
                                                                       collections_config.gold_transcript_spacy)
    gold_trnascript_spacy_word_dict = {it['id']: it['word'] for it in gold_transcript_spacy}
    asr_spacy = experiment_repository.get_property_for_key(record_id, collections_config.asr_spacy)
    asr_spacy_word_dict = {it['id']: it['word'] for it in asr_spacy}
    arr = [
        {
            'step_type': it['step_type'],
            'reference_word_pos': it['step_words']['reference_word']['text'] 
            if 'reference_word' in it['step_words'] else '',
            'reference_word_text': gold_trnascript_spacy_word_dict[it['step_words']['reference_word']['id']] 
            if 'reference_word' in it['step_words'] else '',
            'hypothesis_word_pos': it['step_words']['hypothesis_word']['text']
            if 'hypothesis_word' in it['step_words'] else '',
            'hypothesis_word_text': asr_spacy_word_dict[it['step_words']['hypothesis_word']['id']] 
            if 'hypothesis_word' in it['step_words'] else ''
        }
        for it in pos_alignment_wer
    ]
    return pd.DataFrame(arr)
    
    
def show_report_for(record_id: str, experiment_repository: ExperimentRepository,
                    collections_config: CollectionsConfig):
    print('record_id:', record_id)
    print('properties_confiog:', collections_config.config_name)
    print()
    print(f'gold transcript: {get_gold_transcript_for(record_id, experiment_repository, collections_config)}')    
    print()
    print(f'asr transcript: {get_asr_transcript_for(record_id, experiment_repository, collections_config)}')
    print()
    print(f"word wer {experiment_repository.get_property_for_key(record_id, collections_config.word_asr_metric_wer)}")
    print()
    print(f"pos wer {experiment_repository.get_property_for_key(record_id, collections_config.pos_asr_metric_wer)}")
    print()
    display(get_word_alignment_df(record_id, experiment_repository, collections_config))
    print()
    display(get_pos_alignment_df(record_id, experiment_repository, collections_config))
    print('--------------------------------------------------------------')
    print('--------------------------------------------------------------')
    print('--------------------------------------------------------------')

# Report for LUNA and TECHMO ASR

In [10]:
for it in list(luna_record_provider.get_all_records())[:1]:
    show_report_for(it, luna_experiment_repository, techmo_connections_config)

record_id: LUNA.PL__KIEDY__DOBRAJAKOSC__F__2_2007-03-23_22_26_40__2_2007-03-23_22_26_40
properties_confiog: TECHMO ASR

gold transcript: dobry wieczór xxx słucham dobry wieczór panu mam do pana prośbę proszę zobaczyć z pętli Szczęśliwickiej sto osiemdziesiąt cztery jutro w sobotę o dwunastej i trzynastej proszę podać rozkład dwunasta dwie tak dwadzieścia dwie tak czterdzieści dwie trzynasta tak samo dziękuję panu dobranoc proszę bardzo dobranoc

asr transcript: dobry wieczór słucham dobry wieczór panu mam do pana prośbę proszę zobaczyć z pętli szczęśliwickiej 100 84 jutro w sobotę o dwunastej i trzynastej proszę podać dwunasta dwie tak 20 dwie tak 40 dwie trzynasta tak samo dziękuję dobranoc

word wer {'classic_wer': 0.2608695652173913}

pos wer {'classic_wer': 0.1956521739130435}



Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,CORRECT,dobry,dobry
1,CORRECT,wieczór,wieczór
2,DELETION,xxx,
3,CORRECT,słucham,słucham
4,CORRECT,dobry,dobry
5,CORRECT,wieczór,wieczór
6,CORRECT,panu,panu
7,CORRECT,mam,mam
8,CORRECT,do,do
9,CORRECT,pana,pana





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,CORRECT,ADJ,dobry,ADJ,dobry
1,CORRECT,NOUN,wieczór,NOUN,wieczór
2,DELETION,PRON,xxx,,
3,CORRECT,VERB,słucham,VERB,słucham
4,CORRECT,ADJ,dobry,ADJ,dobry
5,CORRECT,NOUN,wieczór,NOUN,wieczór
6,CORRECT,NOUN,panu,NOUN,panu
7,CORRECT,VERB,mam,VERB,mam
8,CORRECT,ADP,do,ADP,do
9,CORRECT,NOUN,pana,NOUN,pana


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------


# Report for LUNA and AJN ASR

In [11]:
for it in list(luna_record_provider.get_all_records())[:3]:
    show_report_for(it, luna_experiment_repository, ajn_connections_config)

record_id: LUNA.PL__KIEDY__DOBRAJAKOSC__F__2_2007-03-23_22_26_40__2_2007-03-23_22_26_40
properties_confiog: AJN ASR

gold transcript: dobry wieczór xxx słucham dobry wieczór panu mam do pana prośbę proszę zobaczyć z pętli Szczęśliwickiej sto osiemdziesiąt cztery jutro w sobotę o dwunastej i trzynastej proszę podać rozkład dwunasta dwie tak dwadzieścia dwie tak czterdzieści dwie trzynasta tak samo dziękuję panu dobranoc proszę bardzo dobranoc

asr transcript: dobry wieczór w sali oraz tak naprawdę <unk> tak jak ten nieszczęśliwi ta osiemdziesiąt te <unk> to taka zabawa - <unk> <unk> <unk> ta sięga tej szepeta stąd tak od pieszczot tak czterdziestu trzech stoczni kieruje się na dobranoc  

word wer {'classic_wer': 1.0}

pos wer {'classic_wer': 0.8478260869565217}



Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,DELETION,dobry,
1,DELETION,wieczór,
2,DELETION,xxx,
3,DELETION,słucham,
4,DELETION,dobry,
5,SUBSTITUTION,wieczór,"{'id': '0fc83ca6-3db7-467e-8b86-8ef06ab2925e',..."
6,SUBSTITUTION,panu,"{'id': 'b79a7ca0-a06c-4d53-8e3d-22d3083fb686',..."
7,SUBSTITUTION,mam,"{'id': 'e3369ffb-9227-4ced-84b5-a8ff03217a29',..."
8,SUBSTITUTION,do,"{'id': 'f9381602-91db-4386-acc7-c2a68b881740',..."
9,SUBSTITUTION,pana,"{'id': '72899e49-378e-449b-aa53-81eec263d952',..."





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,CORRECT,ADJ,dobry,ADJ,dobry
1,CORRECT,NOUN,wieczór,NOUN,wieczór
2,DELETION,PRON,xxx,,
3,DELETION,VERB,słucham,,
4,SUBSTITUTION,ADJ,dobry,ADP,w
5,CORRECT,NOUN,wieczór,NOUN,sali
6,SUBSTITUTION,NOUN,panu,CCONJ,oraz
7,SUBSTITUTION,VERB,mam,PART,tak
8,SUBSTITUTION,ADP,do,PART,naprawdę
9,SUBSTITUTION,NOUN,pana,PUNCT,<


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------
record_id: LUNA.PL__KIEDY__KIEPSKAJAKOSC__M__1_2007-03-23_15_29_03__1_2007-03-23_15_29_03
properties_confiog: AJN ASR

gold transcript: xxx dzień dobry dzień dobry proszę pana chciałbym się dowiedzieć o której będzie siedemset osiem siedemset dwadzieścia sześć z Placu Wilsona najbliższy siedemset osiem piętnasta pięćdziesiąt aha a linia siedemset dwadzieścia sześć o dopiero szesnasta dwana~ zero dwa aha czy i piętnasta pięćdziesiąt dobra dziękuję bardzo proszę bardzo

asr transcript: dobre dobre szkoła uczą się trudnej sztuki o przyszłość przeszedł płatów ono najbliższe <unk> siedemset osiem jedenasta pięćdziesiąt a linia siedemset dwadzieścia sześć <unk> dopiero szesnasto dwa zero dwa - od do w m2  

word wer {'classic_wer': 1.0}

pos wer {'classic_wer': 0.673469387755102}



Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,DELETION,xxx,
1,DELETION,dzień,
2,DELETION,dobry,
3,DELETION,dzień,
4,DELETION,dobry,
5,DELETION,proszę,
6,DELETION,pana,
7,DELETION,chciałbym,
8,DELETION,się,
9,DELETION,dowiedzieć,





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,DELETION,PRON,xxx,,
1,DELETION,NOUN,dzień,,
2,CORRECT,ADJ,dobry,ADJ,dobre
3,DELETION,NOUN,dzień,,
4,CORRECT,ADJ,dobry,ADJ,dobre
5,DELETION,VERB,proszę,,
6,CORRECT,NOUN,pana,NOUN,szkoła
7,CORRECT,VERB,chciałbym,VERB,uczą
8,CORRECT,PRON,się,PRON,się
9,INSERTION,,,ADJ,trudnej


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------
record_id: LUNA.PL__PRZYSTANKI__DOBRAJAKOSC__F__2_2007-04-03_11_08_15__2_2007-04-03_11_08_15
properties_confiog: AJN ASR

gold transcript: dzień dobry przy telefonie xxx słucham dzień dobry panu proszę pana pierwsze pytanie mam takie dlaczego na waszej stronie internetowej nie ma ulicy Świętokrzyskiej w liście wyboru zespołu przystanków bo proszę pani bo to jest jak pani dobrze zauważyła to jest wybór przystanków a przystanku nie ma Świętokrzyska jest albo Metro Świętokrzyska albo no w sumie tylko z nazwą Świętokrzyską to jest przystanek Metro Świętokrzyska jak pani napisze to znaczy trzeba szukać po przystankach tak ale wie pan ten przystanek który ja potrzebuję to jest akurat w połowie między Krakowskim Przedmieściem a Czackiego no to jak ja go mam szukać ? ja pod może wobec tego ja pana poproszę t

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,DELETION,dzień,
1,DELETION,dobry,
2,DELETION,przy,
3,DELETION,telefonie,
4,DELETION,xxx,
5,DELETION,słucham,
6,DELETION,dzień,
7,DELETION,dobry,
8,DELETION,panu,
9,DELETION,proszę,





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,CORRECT,NOUN,dzień,NOUN,dobrobytu
1,INSERTION,,,DET,swoją
2,CORRECT,ADJ,dobry,ADJ,skandaliczne
3,SUBSTITUTION,ADP,przy,VERB,bretano
4,CORRECT,NOUN,telefonie,NOUN,pytanie
5,CORRECT,NOUN,xxx,NOUN,statek
6,INSERTION,,,PUNCT,<
7,INSERTION,,,X,unk
8,INSERTION,,,PUNCT,>
9,SUBSTITUTION,VERB,słucham,CCONJ,i


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------


# Report for VOICELAB and TECHMO ASR

In [25]:
for it in list(voicelab_record_provider.get_all_records())[:3]:
    show_report_for(it, voicelab_experiment_repository, techmo_connections_config)

record_id: ubezpieczeniowa__cbiz_tc_6043.agnt
properties_confiog: TECHMO ASR

gold transcript: proszę wprowadzić pięć proszę wprowadzić czterocyfrowe ha proszę wprowadzić numer scenariusza dzień dobry karolina adamczyk tania polisa w czym mogę pomóc już dla pana oczywiście to sprawdzę co no tak naprawdę co do zasady w przypadku wymiany sprzętu wykupione ubezpieczenie jak najbardziej przechodzi na ten nowy sprzęt ale niestety sprawdźmy dobrze poproszę o pana numer polisy to upewnię się czy pana sytuacja jest tak samo dobrze dziękuję bardzo jeszcze poproszę o pana imię i nazwisko dobrze dziękuję panu bardzo proszę jeszcze o chwilę cierpliwości

asr transcript: proszę wprowadzić 500 proszę wprowadzić czterocyfrowe ha proszę wprowadzić numer scenariusza tajne adam czytania polisa w czym mogę pomóc jeszcze pana oczywiście to sprawdzę no tak naprawdę co do zasady w przypadku wymiany sprzętu wykupione ubezpieczenie jest najbardziej nowy sprzęt ale niestety strasznie dobrze poproszę pana numer

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,CORRECT,proszę,proszę
1,CORRECT,wprowadzić,wprowadzić
2,SUBSTITUTION,pięć,500
3,CORRECT,proszę,proszę
4,CORRECT,wprowadzić,wprowadzić
5,CORRECT,czterocyfrowe,czterocyfrowe
6,CORRECT,ha,ha
7,CORRECT,proszę,proszę
8,CORRECT,wprowadzić,wprowadzić
9,CORRECT,numer,numer





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,CORRECT,VERB,proszę,VERB,proszę
1,CORRECT,VERB,wprowadzić,VERB,wprowadzić
2,CORRECT,NUM,pięć,NUM,500
3,CORRECT,VERB,proszę,VERB,proszę
4,CORRECT,VERB,wprowadzić,VERB,wprowadzić
5,CORRECT,ADJ,czterocyfrowe,ADJ,czterocyfrowe
6,CORRECT,NOUN,ha,NOUN,ha
7,CORRECT,VERB,proszę,VERB,proszę
8,CORRECT,VERB,wprowadzić,VERB,wprowadzić
9,DELETION,NOUN,numer,,


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------
record_id: wypozyczalnia__cbiz_tc_5285.agnt
properties_confiog: TECHMO ASR

gold transcript: proszę wprowadzić pięciocyfrowy numer uczes proszę wprowadzić czterocyfrowe hasło i zatwie proszę wprowadzić numer scenariusza i za dzień dobry wypożyczalnia samochodów rent auto przy telefonie monika lisicka w czym mogę pomóc przepraszam oczywiście to wie pan co no żebym mogła tą rezerwację odnaleźć no to w pierwszej kolejności poprosiłabym pana o podanie jej numeru numer rezerwacji mógł pan otrzymać albo smsem albo mailem albo i tą i tą drogą w zależności od tego jak pan sobie życzył przy dokonywaniu tej rezerwacji dobrze oczywiście prawdopodobnie przyszło to z numeru albo rezerwacjerentautopl albo biurorentautopl to w zależności czy pan dokonywał online czy za pośdrenictwem infolinii bardzo dziękuję popros

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,CORRECT,proszę,proszę
1,CORRECT,wprowadzić,wprowadzić
2,CORRECT,pięciocyfrowy,pięciocyfrowy
3,CORRECT,numer,numer
4,DELETION,uczes,
5,CORRECT,proszę,proszę
6,CORRECT,wprowadzić,wprowadzić
7,CORRECT,czterocyfrowe,czterocyfrowe
8,CORRECT,hasło,hasło
9,CORRECT,i,i





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,CORRECT,VERB,proszę,VERB,proszę
1,CORRECT,VERB,wprowadzić,VERB,wprowadzić
2,CORRECT,ADJ,pięciocyfrowy,ADJ,pięciocyfrowy
3,DELETION,NOUN,numer,,
4,CORRECT,NOUN,uczes,NOUN,numer
5,CORRECT,VERB,proszę,VERB,proszę
6,CORRECT,VERB,wprowadzić,VERB,wprowadzić
7,CORRECT,ADJ,czterocyfrowe,ADJ,czterocyfrowe
8,CORRECT,NOUN,hasło,NOUN,hasło
9,CORRECT,CCONJ,i,CCONJ,i


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------
record_id: telekomunikacyjna__cbiz_tc_397.clnt
properties_confiog: TECHMO ASR

gold transcript: dzień dobry mam problem z telefonem mój został zablokowany mimo że dzisiaj opłaciłam rachunek na poczcie tak nie ponieważ mój jest zablokowany to jest siedem dwa trzy jeden osiem cztery dwa cztery nie nie zapomniałam hasła ale mogę podać pesel sześćdziesiąt siedem zero trzy dwadzieścia sześć zero cztery cztery cztery cztery cztery tak tak dostałam okej dziękuję to bardzo miłe z pani strony dziękuję nie to był mój jedyny problem dziękuję do widzenia

asr transcript: dzień dobry mam problem z telefonem mój został zablokowany mimo że dzisiaj tomek na poczcie tak nie ponieważ mój jest zablokowany nie 1 2 3 1 8 4 2 4 nie nie zapomniałam hasła mogę podać pesel 7 0 3 26 0 4 4 4 4 4 tak tak dostałam okej dziękuję 

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,CORRECT,dzień,dzień
1,CORRECT,dobry,dobry
2,CORRECT,mam,mam
3,CORRECT,problem,problem
4,CORRECT,z,z
5,CORRECT,telefonem,telefonem
6,CORRECT,mój,mój
7,CORRECT,został,został
8,CORRECT,zablokowany,zablokowany
9,CORRECT,mimo,mimo





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,CORRECT,NOUN,dzień,NOUN,dzień
1,CORRECT,ADJ,dobry,ADJ,dobry
2,CORRECT,VERB,mam,VERB,mam
3,CORRECT,NOUN,problem,NOUN,problem
4,CORRECT,ADP,z,ADP,z
5,CORRECT,NOUN,telefonem,NOUN,telefonem
6,CORRECT,DET,mój,DET,mój
7,CORRECT,AUX,został,AUX,został
8,CORRECT,ADJ,zablokowany,ADJ,zablokowany
9,CORRECT,ADV,mimo,ADV,mimo


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------


In [26]:
for it in list(voicelab_record_provider.get_all_records())[:3]:
    show_report_for(it, voicelab_experiment_repository, ajn_connections_config)

record_id: ubezpieczeniowa__cbiz_tc_6043.agnt
properties_confiog: AJN ASR

gold transcript: proszę wprowadzić pięć proszę wprowadzić czterocyfrowe ha proszę wprowadzić numer scenariusza dzień dobry karolina adamczyk tania polisa w czym mogę pomóc już dla pana oczywiście to sprawdzę co no tak naprawdę co do zasady w przypadku wymiany sprzętu wykupione ubezpieczenie jak najbardziej przechodzi na ten nowy sprzęt ale niestety sprawdźmy dobrze poproszę o pana numer polisy to upewnię się czy pana sytuacja jest tak samo dobrze dziękuję bardzo jeszcze poproszę o pana imię i nazwisko dobrze dziękuję panu bardzo proszę jeszcze o chwilę cierpliwości

asr transcript: banki prowadzą typowego pozbawionym scenariusz dla unii gol <unk> w pole rządu okręgu ulicznym barier kulturowych i nuno manuel pojedzie to nie tu tu tu otwiera ockhama dla niny był między innymi do wyrobu i dziękuje bogu i nie pojmują jej <unk>  

word wer {'classic_wer': 1.0}

pos wer {'classic_wer': 0.7142857142857143}



Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,DELETION,proszę,
1,DELETION,wprowadzić,
2,DELETION,pięć,
3,DELETION,proszę,
4,DELETION,wprowadzić,
5,DELETION,czterocyfrowe,
6,DELETION,ha,
7,DELETION,proszę,
8,DELETION,wprowadzić,
9,DELETION,numer,





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,DELETION,VERB,proszę,,
1,DELETION,VERB,wprowadzić,,
2,DELETION,NUM,pięć,,
3,DELETION,VERB,proszę,,
4,DELETION,VERB,wprowadzić,,
5,DELETION,ADJ,czterocyfrowe,,
6,CORRECT,NOUN,ha,NOUN,banki
7,DELETION,VERB,proszę,,
8,CORRECT,VERB,wprowadzić,VERB,prowadzą
9,DELETION,NOUN,numer,,


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------
record_id: wypozyczalnia__cbiz_tc_5285.agnt
properties_confiog: AJN ASR

gold transcript: proszę wprowadzić pięciocyfrowy numer uczes proszę wprowadzić czterocyfrowe hasło i zatwie proszę wprowadzić numer scenariusza i za dzień dobry wypożyczalnia samochodów rent auto przy telefonie monika lisicka w czym mogę pomóc przepraszam oczywiście to wie pan co no żebym mogła tą rezerwację odnaleźć no to w pierwszej kolejności poprosiłabym pana o podanie jej numeru numer rezerwacji mógł pan otrzymać albo smsem albo mailem albo i tą i tą drogą w zależności od tego jak pan sobie życzył przy dokonywaniu tej rezerwacji dobrze oczywiście prawdopodobnie przyszło to z numeru albo rezerwacjerentautopl albo biurorentautopl to w zależności czy pan dokonywał online czy za pośdrenictwem infolinii bardzo dziękuję poproszę 

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,DELETION,proszę,
1,DELETION,wprowadzić,
2,DELETION,pięciocyfrowy,
3,DELETION,numer,
4,DELETION,uczes,
5,DELETION,proszę,
6,DELETION,wprowadzić,
7,DELETION,czterocyfrowe,
8,DELETION,hasło,
9,DELETION,i,





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,DELETION,VERB,proszę,,
1,SUBSTITUTION,VERB,wprowadzić,NOUN,pleban
2,CORRECT,ADJ,pięciocyfrowy,ADJ,pytlowy
3,CORRECT,NOUN,numer,NOUN,numer
4,CORRECT,NOUN,uczes,NOUN,kutry
5,DELETION,VERB,proszę,,
6,DELETION,VERB,wprowadzić,,
7,CORRECT,ADJ,czterocyfrowe,ADJ,rybackie
8,DELETION,NOUN,hasło,,
9,CORRECT,CCONJ,i,CCONJ,i


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------
record_id: telekomunikacyjna__cbiz_tc_397.clnt
properties_confiog: AJN ASR

gold transcript: dzień dobry mam problem z telefonem mój został zablokowany mimo że dzisiaj opłaciłam rachunek na poczcie tak nie ponieważ mój jest zablokowany to jest siedem dwa trzy jeden osiem cztery dwa cztery nie nie zapomniałam hasła ale mogę podać pesel sześćdziesiąt siedem zero trzy dwadzieścia sześć zero cztery cztery cztery cztery cztery tak tak dostałam okej dziękuję to bardzo miłe z pani strony dziękuję nie to był mój jedyny problem dziękuję do widzenia

asr transcript: to był dobry i dobrze <unk> indyki ponad milion łuku banalnym unikali opuściłam roku na kupno kościoła w stylu lat lgnie do niego dobudowanym ludzie litują się bardzo dużo siły nie były w tym elemencie gry była cztery apel niechętny a mało kto wybr

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,INSERTION,,"{'id': '9a9b78d3-4c55-44be-ae9f-6f6489424e2f',..."
1,INSERTION,,"{'id': 'ed8d53e3-0087-46e3-980f-d9db220be198',..."
2,INSERTION,,"{'id': 'ba03278c-ec41-4161-b2e8-8a5f4d807abf',..."
3,INSERTION,,"{'id': '28cc703e-294d-4ce5-8b66-3f054b7c92a6',..."
4,INSERTION,,"{'id': 'dc83a49c-1f11-4f05-8c8d-bc11416718a2',..."
5,INSERTION,,"{'id': 'bfdedb58-a890-4e58-843c-b9c340a6c430',..."
6,INSERTION,,"{'id': 'a989835f-40a4-40a2-ae83-4fcaef994456',..."
7,INSERTION,,"{'id': '48642539-4953-4626-abce-9ac328851f3d',..."
8,INSERTION,,"{'id': 'd93d886b-ea1e-442c-895a-55ba5aae5a8c',..."
9,INSERTION,,"{'id': 'a5d1695f-e290-4bb6-bf12-48ee95c9e09d',..."





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,INSERTION,,,AUX,to
1,SUBSTITUTION,NOUN,dzień,AUX,był
2,CORRECT,ADJ,dobry,ADJ,dobry
3,INSERTION,,,CCONJ,i
4,INSERTION,,,ADV,dobrze
5,SUBSTITUTION,VERB,mam,PUNCT,<
6,CORRECT,NOUN,problem,NOUN,unk
7,SUBSTITUTION,ADP,z,PUNCT,>
8,CORRECT,NOUN,telefonem,NOUN,indyki
9,INSERTION,,,PART,ponad


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------
