# Imports and configs

In [2]:
from experiment.luna.luna_record_provider import LunaRecordProvider
from sziszapangma.integration.experiment_manager import ExperimentManager
from sziszapangma.integration.repository.multi_files_experiment_repository import MultiFilesExperimentRepository
from sziszapangma.integration.path_filter import ExtensionPathFilter
from pymongo import MongoClient
from spacy.tokens.doc import Doc
import pandas as pd
from experiment.voicelab.voicelab_telco_record_provider import VoicelabTelcoRecordProvider
from sziszapangma.integration.repository.experiment_repository import ExperimentRepository
from dataclasses import dataclass
import itertools
from typing import Optional, Any, List
import numpy as np

In [3]:
pd.set_option('display.max_rows', None)

# Load datasets and other pipeline objects

In [4]:
VOICELAB_DATASET_DIRECTORY = 'experiment_data/dataset/voicelab_cbiz_testset_20220322'
LUNA_DATASET_DIRECTORY = 'experiment_data/dataset/LUNA.PL'

In [9]:
## repository collections
GOLD_TRANSCRIPT = 'gold_transcript'
GOLD_TRANSCRIPT_SPACY = 'gold_transcript_spacy'

TECHMO_POLISH_ASR = 'techmo_polish_asr'
WORD_TECHMO_MERTICS_WER = 'word_techmo_metrics_wer'
WORD_TECHMO_ALIGNMENT_WER = 'word_techmo_alignment_wer'
TECHMO_SPACY = 'techmo_spacy'
POS_TECHMO_ALIGNMENT_WER = 'pos_techmo_alignment_wer'
POS_TECHMO_METRICS_WER = 'pos_techmo_metrics_wer'
TAG_SPACY_TECHMO_METRICS_WER_EMBEDDINGS = 'tag_spacy_techmo_metrics_wer_embeddings'
TAG_SPACY_TECHMO_ALIGNMENT_WER_EMBEDDINGS = 'tag_spacy_techmo_alignment_wer_embeddings'
NER_SPACY_TECHMO_METRICS_WER_EMBEDDINGS = 'ner_spacy_techmo_metrics_wer_embeddings'
NER_SPACY_TECHMO_ALIGNMENT_WER_EMBEDDINGS = 'ner_spacy_techmo_alignment_wer_embeddings'

AJN_POLISH_ASR = 'ajn_polish_asr'
WORD_AJN_MERTICS_WER = 'word_ajn_metrics_wer'
WORD_AJN_ALIGNMENT_WER = 'word_ajn_alignment_wer'
AJN_SPACY = 'ajn_spacy'
POS_AJN_ALIGNMENT_WER = 'pos_ajn_metrics_wer'
POS_AJN_METRICS_WER = 'pos_ajn_alignment_wer'
TAG_SPACY_AJN_METRICS_WER_EMBEDDINGS = 'tag_spacy_ajn_metrics_wer_embeddings'
TAG_SPACY_AJN_ALIGNMENT_WER_EMBEDDINGS = 'tag_spacy_ajn_alignment_wer_embeddings'
NER_SPACY_AJN_METRICS_WER_EMBEDDINGS = 'ner_spacy_ajn_metrics_wer_embeddings'
NER_SPACY_AJN_ALIGNMENT_WER_EMBEDDINGS = 'ner_spacy_ajn_alignment_wer_embeddings'

In [10]:
@dataclass
class CollectionsConfig:
    config_name: str
    gold_transcript: str
    gold_transcript_spacy: str
    asr: str
    word_asr_metric_wer: str
    word_asr_alignment_wer: str
    asr_spacy: str
    pos_asr_metric_wer: str
    pos_asr_alignment_wer: str
    tag_metric_wer: str
    tag_alignment_wer: str
    ner_metric_wer: str
    ner_alignment_wer: str

In [11]:
techmo_connections_config = CollectionsConfig(
    config_name='TECHMO ASR',
    gold_transcript=GOLD_TRANSCRIPT,
    gold_transcript_spacy=GOLD_TRANSCRIPT_SPACY,
    asr=TECHMO_POLISH_ASR,
    word_asr_metric_wer=WORD_TECHMO_MERTICS_WER,
    word_asr_alignment_wer=WORD_TECHMO_ALIGNMENT_WER,
    asr_spacy=TECHMO_SPACY,
    pos_asr_metric_wer=POS_TECHMO_METRICS_WER,
    pos_asr_alignment_wer=POS_TECHMO_ALIGNMENT_WER,
    tag_metric_wer=TAG_SPACY_TECHMO_METRICS_WER_EMBEDDINGS,
    tag_alignment_wer=TAG_SPACY_TECHMO_ALIGNMENT_WER_EMBEDDINGS,
    ner_metric_wer=NER_SPACY_TECHMO_METRICS_WER_EMBEDDINGS,
    ner_alignment_wer=NER_SPACY_TECHMO_ALIGNMENT_WER_EMBEDDINGS
)
ajn_connections_config = CollectionsConfig(
    config_name='AJN ASR',
    gold_transcript=GOLD_TRANSCRIPT,
    gold_transcript_spacy=GOLD_TRANSCRIPT_SPACY,
    asr=AJN_POLISH_ASR,
    word_asr_metric_wer=WORD_AJN_MERTICS_WER,
    word_asr_alignment_wer=WORD_AJN_ALIGNMENT_WER,
    asr_spacy=AJN_SPACY,
    pos_asr_metric_wer=POS_AJN_ALIGNMENT_WER,
    pos_asr_alignment_wer=POS_AJN_METRICS_WER,
    tag_metric_wer=TAG_SPACY_AJN_METRICS_WER_EMBEDDINGS,
    tag_alignment_wer=TAG_SPACY_AJN_ALIGNMENT_WER_EMBEDDINGS,
    ner_metric_wer=NER_SPACY_TECHMO_METRICS_WER_EMBEDDINGS,
    ner_alignment_wer=NER_SPACY_TECHMO_ALIGNMENT_WER_EMBEDDINGS
)

In [12]:
voicelab_experiment_repository = MultiFilesExperimentRepository(
    'experiment_data/pipeline',
    'asr_benchmark_voicelab_cbiz_testset_20220322'
)
luna_experiment_repository = MultiFilesExperimentRepository(
    'experiment_data/pipeline',
    'asr_benchmark_luna'
)
print(f'voicelab examples count {len(voicelab_experiment_repository.get_all_record_ids())}')
print(f'luna examples count {len(luna_experiment_repository.get_all_record_ids())}')

voicelab examples count 800
luna examples count 500


In [13]:
voicelab_record_provider = VoicelabTelcoRecordProvider(ExtensionPathFilter(
    root_directory=VOICELAB_DATASET_DIRECTORY,
    extension='wav',
), relation_manager_root_path='experiment_data/dataset_relation_manager_data/voicelab_cbiz_testset_20220322')

luna_record_provider = LunaRecordProvider(ExtensionPathFilter(
    root_directory=f'{LUNA_DATASET_DIRECTORY}/LUNA.PL',
    extension='wav',
), relation_manager_root_path='experiment_data/dataset_relation_manager_data/luna')

In [14]:
# explore POS 
a = []
for record_id in list(luna_record_provider.get_all_records()):
    g = luna_experiment_repository.get_property_for_key(record_id, GOLD_TRANSCRIPT)
    # print(g)
    a.extend(list(set([it['pos'] for it in g])))
    # print(a)
# set(a)
# https://www.sketchengine.eu/polish-nkjp-part-of-speech-tagset/
# {'-': 'X',
#  'ADJc': 'ADJ',
#  'ADJp': 'ADJ',
#  'ADV': 'ADV',
#  'ADVn': 'ADV',
#  'CC',
#  'ITJ',
#  'NUM': 'NUM',
#  'NUMc': 'NUM',
#  'NUMp': 'NUM',
#  'NUMq': 'NUM',
#  'Nc',
#  'Np',
#  'PADJ',
#  'PART',
#  'PINT',
#  'PN',
#  'PPER',
#  'PQ',
#  'PREF',
#  'PREL',
#  'PreP',
#  'PrePF',
#  'PrePp',
#  'PropName',
#  'VA',
#  'VS',
#  'VV',
#  'acron'}

In [23]:
def get_gold_transcript_for(record_id: str, experiment_repository: ExperimentRepository, 
                            collections_config: CollectionsConfig) -> str:
    gold_trnascript_property = experiment_repository.get_property_for_key(
        record_id, collections_config.gold_transcript)
    return ' '.join([it['word'] for it in gold_trnascript_property])

def get_asr_transcript_for(record_id: str, experiment_repository: ExperimentRepository,
                           collections_config: CollectionsConfig) -> str:
    gold_trnascript_property = experiment_repository.get_property_for_key(record_id, collections_config.asr)
    return gold_trnascript_property['full_text']

def get_word_alignment_df(record_id: str, experiment_repository: ExperimentRepository, 
                        collections_config: CollectionsConfig) -> pd.DataFrame:
    word_alignment_wer = experiment_repository.get_property_for_key(record_id, 
                                                                    collections_config.word_asr_alignment_wer)
    arr = [
        {
            'step_type': it['step_type'],
            'reference_word_text': it['step_words']['reference_word']['text'] 
            if 'reference_word' in it['step_words'] else '',
            'hypothesis_word_text': it['step_words']['hypothesis_word']['text']
            if 'hypothesis_word' in it['step_words'] else '',
        }
        for it in word_alignment_wer
    ]
    return pd.DataFrame(arr)


def get_pos_alignment_df(record_id: str, experiment_repository: ExperimentRepository, 
                        collections_config: CollectionsConfig) -> pd.DataFrame:
    pos_alignment_wer = experiment_repository.get_property_for_key(record_id, 
                                                                   collections_config.pos_asr_alignment_wer)
    gold_transcript_spacy = experiment_repository.get_property_for_key(record_id,
                                                                       collections_config.gold_transcript_spacy)
    gold_trnascript_spacy_word_dict = {it['id']: it['word'] for it in gold_transcript_spacy}
    asr_spacy = experiment_repository.get_property_for_key(record_id, collections_config.asr_spacy)
    asr_spacy_word_dict = {it['id']: it['word'] for it in asr_spacy}
    arr = [
        {
            'step_type': it['step_type'],
            'reference_word_pos': it['step_words']['reference_word']['text'] 
            if 'reference_word' in it['step_words'] else '',
            'reference_word_text': gold_trnascript_spacy_word_dict[it['step_words']['reference_word']['id']] 
            if 'reference_word' in it['step_words'] else '',
            'hypothesis_word_pos': it['step_words']['hypothesis_word']['text']
            if 'hypothesis_word' in it['step_words'] else '',
            'hypothesis_word_text': asr_spacy_word_dict[it['step_words']['hypothesis_word']['id']] 
            if 'hypothesis_word' in it['step_words'] else ''
        }
        for it in pos_alignment_wer
    ]
    return pd.DataFrame(arr)



def get_tag_alignment_df(record_id: str, experiment_repository: ExperimentRepository, 
                        collections_config: CollectionsConfig) -> pd.DataFrame:
    word_alignment_wer = experiment_repository.get_property_for_key(record_id, 
                                                                    collections_config.tag_alignment_wer)
    arr = [
        {
            'step_type': it['step_type'],
            'reference_word_text': it['step_words']['reference_word']['text'] 
            if 'reference_word' in it['step_words'] else '',
            'hypothesis_word_text': it['step_words']['hypothesis_word']['text']
            if 'hypothesis_word' in it['step_words'] else '',
        }
        for it in word_alignment_wer
    ]
    return pd.DataFrame(arr)


def get_ner_alignment_df(record_id: str, experiment_repository: ExperimentRepository, 
                        collections_config: CollectionsConfig) -> pd.DataFrame:
    word_alignment_wer = experiment_repository.get_property_for_key(record_id, 
                                                                    collections_config.ner_metric_wer)
    arr = [
        {
            'step_type': it['step_type'],
            'reference_word_text': it['step_words']['reference_word']['text'] 
            if 'reference_word' in it['step_words'] else '',
            'hypothesis_word_text': it['step_words']['hypothesis_word']['text']
            if 'hypothesis_word' in it['step_words'] else '',
        }
        for it in word_alignment_wer
    ]
    return pd.DataFrame(arr)
    
    
def show_report_for(record_id: str, experiment_repository: ExperimentRepository,
                    collections_config: CollectionsConfig):
    print('record_id:', record_id)
    print('properties_confiog:', collections_config.config_name)
    print()
    print(f'gold transcript: {get_gold_transcript_for(record_id, experiment_repository, collections_config)}')    
    print()
    print(f'asr transcript: {get_asr_transcript_for(record_id, experiment_repository, collections_config)}')
    print()
    print(f"word wer {experiment_repository.get_property_for_key(record_id, collections_config.word_asr_metric_wer)}")
    print()
    print(f"pos wer {experiment_repository.get_property_for_key(record_id, collections_config.pos_asr_metric_wer)}")
    print()
    print(f"tag wer {experiment_repository.get_property_for_key(record_id, collections_config.tag_metric_wer)}") 
    print()
    print(f"ner wer {experiment_repository.get_property_for_key(record_id, collections_config.ner_alignment_wer)}")
    print()
    display(get_word_alignment_df(record_id, experiment_repository, collections_config))
    print()
    display(get_pos_alignment_df(record_id, experiment_repository, collections_config))
    print()
    display(get_tag_alignment_df(record_id, experiment_repository, collections_config))
    print()
    display(get_ner_alignment_df(record_id, experiment_repository, collections_config))
    print('--------------------------------------------------------------')
    print('--------------------------------------------------------------')
    print('--------------------------------------------------------------')

# Report for LUNA and TECHMO ASR

In [24]:
for it in list(luna_record_provider.get_all_records())[:1]:
    show_report_for(it, luna_experiment_repository, techmo_connections_config)

record_id: LUNA.PL__PRZYSTANKI__DOBRAJAKOSC__M__1_2007-03-30_14_37_38__1_2007-03-30_14_37_38
properties_confiog: TECHMO ASR

gold transcript: xxx dzień dobry dzień dobry proszę pana ja mam o której będzie sto czterdzieści trzy będzie najbliższy z Alei Alei Witosa w stronę Gocławia z tego przystanku vis-a-vis ZUSu tak ? no nie nie tam vis-a-vis Panoramy przez Siekierkowski tam w stronę Gocławia ale to nie z tego przystanku Aleja Witosa ? no to jest czy Bartoszka na żądanie wie pan gdzie jest się zaczyna Most Siekierkowski tam w stronę Gocławia gdzie ma on przystanek pierwszy sto czterdzieści trzy znaczy tak naprawdę Most Siekierkowski to się zaczyna za Siekierki Sanktuarium no właśnie przed tym przed tym przystanek o której jest sto czterdzieści trzy najbliższy aha czyli to wtedy przystanek Małe Siekierki ale to nie jest tak tak tak tak na wysokości Panoramy aha dobrze najbliższy już chwileczkę czternasta czterdzieści sześć piętnasta zero jeden aha no dobrze dziękuję do widzenia do widz

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,DELETION,xxx,
1,CORRECT,dzień,dzień
2,CORRECT,dobry,dobry
3,CORRECT,dzień,dzień
4,CORRECT,dobry,dobry
5,CORRECT,proszę,proszę
6,CORRECT,pana,pana
7,CORRECT,ja,ja
8,CORRECT,mam,mam
9,INSERTION,,pytanie





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,DELETION,PRON,xxx,,
1,CORRECT,NOUN,dzień,NOUN,dzień
2,CORRECT,ADJ,dobry,ADJ,dobry
3,CORRECT,NOUN,dzień,NOUN,dzień
4,CORRECT,ADJ,dobry,ADJ,dobry
5,CORRECT,VERB,proszę,VERB,proszę
6,CORRECT,NOUN,pana,NOUN,pana
7,CORRECT,PRON,ja,PRON,ja
8,CORRECT,VERB,mam,VERB,mam
9,INSERTION,,,NOUN,pytanie





Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,DELETION,xxx,
1,CORRECT,dzień,dzień
2,CORRECT,dobry,dobry
3,CORRECT,dzień,dzień
4,CORRECT,dobry,dobry
5,CORRECT,proszę,proszę
6,CORRECT,pana,pana
7,CORRECT,ja,ja
8,CORRECT,mam,mam
9,INSERTION,,pytanie





Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,DELETION,_,
1,DELETION,_,
2,DELETION,_,
3,DELETION,_,
4,DELETION,_,
5,CORRECT,_,_
6,CORRECT,_,_
7,CORRECT,_,_
8,CORRECT,_,_
9,CORRECT,_,_


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------


# Report for LUNA and AJN ASR

In [25]:
for it in list(luna_record_provider.get_all_records())[:1]:
    show_report_for(it, luna_experiment_repository, ajn_connections_config)

record_id: LUNA.PL__PRZYSTANKI__DOBRAJAKOSC__M__1_2007-03-30_14_37_38__1_2007-03-30_14_37_38
properties_confiog: AJN ASR

gold transcript: xxx dzień dobry dzień dobry proszę pana ja mam o której będzie sto czterdzieści trzy będzie najbliższy z Alei Alei Witosa w stronę Gocławia z tego przystanku vis-a-vis ZUSu tak ? no nie nie tam vis-a-vis Panoramy przez Siekierkowski tam w stronę Gocławia ale to nie z tego przystanku Aleja Witosa ? no to jest czy Bartoszka na żądanie wie pan gdzie jest się zaczyna Most Siekierkowski tam w stronę Gocławia gdzie ma on przystanek pierwszy sto czterdzieści trzy znaczy tak naprawdę Most Siekierkowski to się zaczyna za Siekierki Sanktuarium no właśnie przed tym przed tym przystanek o której jest sto czterdzieści trzy najbliższy aha czyli to wtedy przystanek Małe Siekierki ale to nie jest tak tak tak tak na wysokości Panoramy aha dobrze najbliższy już chwileczkę czternasta czterdzieści sześć piętnasta zero jeden aha no dobrze dziękuję do widzenia do widzeni

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,DELETION,xxx,
1,DELETION,dzień,
2,DELETION,dobry,
3,SUBSTITUTION,dzień,dobre
4,SUBSTITUTION,dobry,dyrektor
5,CORRECT,proszę,proszę
6,DELETION,pana,
7,DELETION,ja,
8,SUBSTITUTION,mam,wybaczyć
9,SUBSTITUTION,o,tryb





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,DELETION,PRON,xxx,,
1,DELETION,NOUN,dzień,,
2,CORRECT,ADJ,dobry,ADJ,dobre
3,CORRECT,NOUN,dzień,NOUN,dyrektor
4,SUBSTITUTION,ADJ,dobry,VERB,proszę
5,CORRECT,VERB,proszę,VERB,wybaczyć
6,CORRECT,NOUN,pana,NOUN,tryb
7,SUBSTITUTION,PRON,ja,NOUN,numer
8,SUBSTITUTION,VERB,mam,ADJ,jeden
9,SUBSTITUTION,ADP,o,SCONJ,to





Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,DELETION,xxx,
1,DELETION,dzień,
2,DELETION,dobry,
3,SUBSTITUTION,dzień,dobre
4,SUBSTITUTION,dobry,dyrektor
5,CORRECT,proszę,proszę
6,DELETION,pana,
7,DELETION,ja,
8,SUBSTITUTION,mam,wybaczyć
9,SUBSTITUTION,o,tryb





Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,DELETION,_,
1,DELETION,_,
2,DELETION,_,
3,DELETION,_,
4,DELETION,_,
5,CORRECT,_,_
6,CORRECT,_,_
7,CORRECT,_,_
8,CORRECT,_,_
9,CORRECT,_,_


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------


# Report for VOICELAB and TECHMO ASR

In [38]:
for it in list(voicelab_record_provider.get_all_records())[:1]:
    show_report_for(it, voicelab_experiment_repository, techmo_connections_config)

record_id: wypozyczalnia__cbiz_tc_5492.agnt
properties_confiog: TECHMO ASR

gold transcript: dzień dobry nazywam się dorota pawłowska dzwonię z wypożyczalni samochodów auto dwadzieścia cztery czy rozmawiam z panem arturem drzewieckim dzień dobry panu bardzo mi miło dzwonię do pana w związku z ostatnim wypożyczeniem jednego z naszych samochodów na terenie holandii w rotterdamie czy potwierdza pan że korzystał pan z usług wynajmu w tym miejscu mmh już wszystko mówię natomiast w ramach formalności i potwierdzenia pańskiej tożsamości pozwoli pan że jeszcze tylko zadam kilka dodatkowych pytań żeby upewnić się że informacje które mam do przekazania trafią do właściwej osoby na początku bym poprosiła pana o podanie daty wynajmu auta w rotterdamie to oczywiście nie musi być dokładna dzienna data wystarczy miesiąc i który to był tydzień tego miesiąca bardzo panu dziękuję dobrze to poproszę pana jeszcze o podanie czterech ostatnich cyfr z numeru karty którą opłacał pan rezerwację cztery ostatnie

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,CORRECT,dzień,dzień
1,CORRECT,dobry,dobry
2,CORRECT,nazywam,nazywam
3,CORRECT,się,się
4,CORRECT,dorota,dorota
5,CORRECT,pawłowska,pawłowska
6,CORRECT,dzwonię,dzwonię
7,CORRECT,z,z
8,CORRECT,wypożyczalni,wypożyczalni
9,CORRECT,samochodów,samochodów





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,CORRECT,NOUN,dzień,NOUN,dzień
1,CORRECT,ADJ,dobry,ADJ,dobry
2,CORRECT,VERB,nazywam,VERB,nazywam
3,CORRECT,PRON,się,PRON,się
4,CORRECT,PROPN,dorota,PROPN,dorota
5,CORRECT,ADJ,pawłowska,ADJ,pawłowska
6,CORRECT,VERB,dzwonię,VERB,dzwonię
7,CORRECT,ADP,z,ADP,z
8,CORRECT,NOUN,wypożyczalni,NOUN,wypożyczalni
9,CORRECT,NOUN,samochodów,NOUN,samochodów





Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,CORRECT,dzień,dzień
1,CORRECT,dobry,dobry
2,CORRECT,nazywam,nazywam
3,CORRECT,się,się
4,CORRECT,dorota,dorota
5,CORRECT,pawłowska,pawłowska
6,CORRECT,dzwonię,dzwonię
7,CORRECT,z,z
8,CORRECT,wypożyczalni,wypożyczalni
9,CORRECT,samochodów,samochodów


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------


In [39]:
for it in list(voicelab_record_provider.get_all_records())[:1]:
    show_report_for(it, voicelab_experiment_repository, ajn_connections_config)

record_id: wypozyczalnia__cbiz_tc_5492.agnt
properties_confiog: AJN ASR

gold transcript: dzień dobry nazywam się dorota pawłowska dzwonię z wypożyczalni samochodów auto dwadzieścia cztery czy rozmawiam z panem arturem drzewieckim dzień dobry panu bardzo mi miło dzwonię do pana w związku z ostatnim wypożyczeniem jednego z naszych samochodów na terenie holandii w rotterdamie czy potwierdza pan że korzystał pan z usług wynajmu w tym miejscu mmh już wszystko mówię natomiast w ramach formalności i potwierdzenia pańskiej tożsamości pozwoli pan że jeszcze tylko zadam kilka dodatkowych pytań żeby upewnić się że informacje które mam do przekazania trafią do właściwej osoby na początku bym poprosiła pana o podanie daty wynajmu auta w rotterdamie to oczywiście nie musi być dokładna dzienna data wystarczy miesiąc i który to był tydzień tego miesiąca bardzo panu dziękuję dobrze to poproszę pana jeszcze o podanie czterech ostatnich cyfr z numeru karty którą opłacał pan rezerwację cztery ostatnie cy

Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,DELETION,dzień,
1,DELETION,dobry,
2,DELETION,nazywam,
3,DELETION,się,
4,DELETION,dorota,
5,DELETION,pawłowska,
6,DELETION,dzwonię,
7,DELETION,z,
8,DELETION,wypożyczalni,
9,DELETION,samochodów,





Unnamed: 0,step_type,reference_word_pos,reference_word_text,hypothesis_word_pos,hypothesis_word_text
0,DELETION,NOUN,dzień,,
1,DELETION,ADJ,dobry,,
2,SUBSTITUTION,VERB,nazywam,NUM,20
3,SUBSTITUTION,PRON,się,X,mb
4,SUBSTITUTION,PROPN,dorota,NOUN,grenadynami
5,CORRECT,ADJ,pawłowska,ADJ,jeden
6,SUBSTITUTION,VERB,dzwonię,CCONJ,a
7,CORRECT,ADP,z,ADP,w
8,SUBSTITUTION,NOUN,wypożyczalni,DET,każdym
9,SUBSTITUTION,NOUN,samochodów,ADP,z





Unnamed: 0,step_type,reference_word_text,hypothesis_word_text
0,SUBSTITUTION,dzień,20
1,SUBSTITUTION,dobry,mb
2,SUBSTITUTION,nazywam,grenadynami
3,SUBSTITUTION,się,jeden
4,SUBSTITUTION,dorota,a
5,SUBSTITUTION,pawłowska,w
6,SUBSTITUTION,dzwonię,każdym
7,CORRECT,z,z
8,DELETION,wypożyczalni,
9,DELETION,samochodów,


--------------------------------------------------------------
--------------------------------------------------------------
--------------------------------------------------------------


# Statistics of POS incorrect data

In [40]:
@dataclass
class AlignDetails:
    value_reference: Optional[str]
    value_hypothesis: Optional[str]
    
    @staticmethod
    def _get_string_or_default(value: Optional[str]) -> str:
        return value if value is not None else '___'
        
    def to_string(self) -> str:
        return f'{self._get_string_or_default(self.value_reference)} -> {self._get_string_or_default(self.value_hypothesis)}'
    
    def is_correct(self) -> bool:
        return self.value_reference == self.value_hypothesis
    
    
def get_align_details(repository_record: List[Any]) -> List[AlignDetails]:
    return [
        AlignDetails(
            value_reference=it['step_words']['reference_word']['text'] if 'reference_word' in it['step_words'] else None,
            value_hypothesis=it['step_words']['hypothesis_word']['text'] if 'hypothesis_word' in it['step_words'] else None
        )
        for it in repository_record
    ]


def show_stats(experiment_repository: ExperimentRepository, collections_config: CollectionsConfig):
    aggregated_aligned = [
        get_align_details(experiment_repository.get_property_for_key(record_id, collections_config.pos_asr_alignment_wer))
        for record_id in list(experiment_repository.get_all_record_ids())[:]
    ]
    list_of_aligns = list(itertools.chain(*aggregated_aligned))
    list_of_changes = [it.to_string() for it in list_of_aligns if not it.is_correct()]
    unique = np.unique(np.array(list_of_changes), return_counts=True)
    return pd.DataFrame({'values': unique[0], 'counts': unique[1]}).sort_values(by=['counts'], ascending=False).head(16)

# Luna Techmo

In [41]:
show_stats(luna_experiment_repository, techmo_connections_config)

Unnamed: 0,values,counts
131,NUM -> ___,2290
192,PUNCT -> ___,1479
114,NOUN -> ___,1204
169,PROPN -> NOUN,1177
45,ADV -> ___,1073
30,ADP -> ___,988
246,___ -> NOUN,918
130,NUM -> X,900
225,VERB -> ___,883
176,PROPN -> ___,823


## Luna AJN

In [42]:
show_stats(luna_experiment_repository, ajn_connections_config)

Unnamed: 0,values,counts
284,___ -> PUNCT,3344
256,VERB -> ___,1645
251,VERB -> PUNCT,1582
279,___ -> NOUN,1548
28,ADP -> PUNCT,1522
52,ADV -> ___,1409
34,ADP -> ___,1316
124,NOUN -> PUNCT,1300
46,ADV -> PUNCT,1197
246,VERB -> NOUN,1186


## VoiceLab Techmo

In [43]:
show_stats(voicelab_experiment_repository, techmo_connections_config)

Unnamed: 0,values,counts
30,ADP -> ___,4527
121,NOUN -> ___,4129
151,PART -> ___,3585
167,PRON -> ___,3424
221,VERB -> ___,2935
46,ADV -> ___,2727
77,CCONJ -> ___,2360
135,NUM -> X,1842
136,NUM -> ___,1726
92,DET -> ___,1715


## VoiceLab AJN

In [44]:
show_stats(voicelab_experiment_repository, ajn_connections_config)

Unnamed: 0,values,counts
259,VERB -> ___,11609
140,NOUN -> ___,10416
53,ADV -> ___,10127
175,PART -> ___,9282
35,ADP -> ___,8663
192,PRON -> ___,8066
287,___ -> PUNCT,6354
105,DET -> ___,6147
17,ADJ -> ___,5935
231,SCONJ -> ___,5385


In [2]:
import spacy
nlp = spacy.load("pl_core_news_lg")

In [3]:
doc = nlp("Ala ma psa i kota")

In [16]:
for it in doc.ents:
    print(it.label_, it.start, it.end)

persName 0 1


In [11]:
len(doc)

5

In [18]:
arr = ['_' for it in range(len(doc))]

In [20]:
for ent in doc.ents:
    for itt in range(ent.start, ent.end):
        arr[itt] = ent.label_

In [15]:
# list(range(2, 3))

[2]

In [22]:
arr

['persName', '_', '_', '_', '_']