Skip to content
Snippets Groups Projects
Select Git revision
  • ce8faaf3dfd44bbb0ebf7428956c635a7089fdd5
  • master default protected
  • vertical_relations
  • lu_without_semantic_frames
  • hierarchy
  • additional-unification-filters
  • v0.1.1
  • v0.1.0
  • v0.0.9
  • v0.0.8
  • v0.0.7
  • v0.0.6
  • v0.0.5
  • v0.0.4
  • v0.0.3
  • v0.0.2
  • v0.0.1
17 results

urls.py

Blame
  • pos.ipynb 12.30 KiB

    Imports and configs

    In [12]:
    from experiment.luna.luna_record_provider import LunaRecordProvider
    from sziszapangma.integration.experiment_manager import ExperimentManager
    from sziszapangma.integration.repository.multi_files_experiment_repository import MultiFilesExperimentRepository
    from sziszapangma.integration.path_filter import ExtensionPathFilter
    from pymongo import MongoClient
    from spacy.tokens.doc import Doc
    import pandas as pd
    from experiment.voicelab.voicelab_telco_record_provider import VoicelabTelcoRecordProvider
    from sziszapangma.integration.repository.experiment_repository import ExperimentRepository
    from dataclasses import dataclass
    import itertools
    from typing import Optional, Any, List
    import numpy as np
    from pprint import pprint
    pd.set_option('display.max_rows', None)

    Load datasets and other pipeline objects

    In [39]:
    VOICELAB_DATASET_DIRECTORY = 'experiment_data/dataset/voicelab_cbiz_testset_20220322'
    LUNA_DATASET_DIRECTORY = 'experiment_data/dataset/LUNA.PL'
    In [41]:
    voicelab_experiment_repository = MultiFilesExperimentRepository(
        'experiment_data/pipeline',
        'asr_benchmark_voicelab_cbiz_testset_20220322'
    )
    luna_experiment_repository = MultiFilesExperimentRepository(
        'experiment_data/pipeline',
        'asr_benchmark_luna'
    )
    print(f'voicelab examples count {len(voicelab_experiment_repository.get_all_record_ids())}')
    print(f'luna examples count {len(luna_experiment_repository.get_all_record_ids())}')
    Out [41]:
    voicelab examples count 800
    luna examples count 500
    
    In [42]:
    voicelab_record_provider = VoicelabTelcoRecordProvider(ExtensionPathFilter(
        root_directory=VOICELAB_DATASET_DIRECTORY,
        extension='wav',
    ), relation_manager_root_path='experiment_data/dataset_relation_manager_data/voicelab_cbiz_testset_20220322')
    luna_record_provider = LunaRecordProvider(ExtensionPathFilter(
        root_directory=f'{LUNA_DATASET_DIRECTORY}/LUNA.PL',
        extension='wav',
    ), relation_manager_root_path='experiment_data/dataset_relation_manager_data/luna')

    Preview data

    In [53]:
    def show_ducklig_report(repository: ExperimentRepository, record_id: str):
        gold_transcript_text = ' '.join([it['word'] for it in repository.get_property_for_key(record_id, 'gold_transcript')])
        pprint({
            'gold_transcript_text': gold_transcript_text,
            'gold_transcript_duckling': repository.get_property_for_key(record_id, 'gold_transcript_duckling'),
            'techmo_asr': repository.get_property_for_key(record_id, 'techmo_polish_asr')['full_text'],
            'techmo_duckling': repository.get_property_for_key(record_id, 'techmo_duckling'),
            'ajn_asr': repository.get_property_for_key(record_id, 'ajn_polish_asr')['full_text'],
            'ajn_duckling': repository.get_property_for_key(record_id, 'ajn_duckling')
        })
    In [55]:
    # show_ducklig_report(voicelab_experiment_repository, list(voicelab_record_provider.get_all_records())[0])
    show_ducklig_report(luna_experiment_repository, list(luna_record_provider.get_all_records())[0])
    Out [55]:
    {'ajn_asr': 'czy dobre <unk> z parą petra <unk> <unk> <unk> <unk> chodziło o '
                'kopanie szczepień rtÉ to repeat od uczestników ochota tak jak '
                'przedtem - cenię i szanuję - <unk> <unk> <unk> <unk> hojnie trud '
                'wśród <unk> okazało się to echem nad nie zatrzymywał się nie '
                'zatrzymują się zatrzymywać w remont tunelu średnicowego i hołd '
                'koźla śródmieście z otrzymuje &quot; wykonano kociak otrzymują '
                'też fachowców furtokiem proszę bardzo  ',
     'ajn_duckling': [],
     'gold_transcript_duckling': [{'body': 'dzień',
                                   'dim': 'duration',
                                   'end': 9,
                                   'latent': False,
                                   'start': 4,
                                   'value': {'day': 1,
                                             'normalized': {'unit': 'second',
                                                            'value': 86400},
                                             'type': 'value',
                                             'unit': 'day',
                                             'value': 1}},
                                  {'body': 'dzień',
                                   'dim': 'duration',
                                   'end': 21,
                                   'latent': False,
                                   'start': 16,
                                   'value': {'day': 1,
                                             'normalized': {'unit': 'second',
                                                            'value': 86400},
                                             'type': 'value',
                                             'unit': 'day',
                                             'value': 1}},
                                  {'body': ' teraz w tej chwili',
                                   'dim': 'time',
                                   'end': 265,
                                   'latent': False,
                                   'start': 246,
                                   'value': {'grain': 'second',
                                             'type': 'value',
                                             'value': '2022-06-10T05:39:27.286-07:00',
                                             'values': [{'grain': 'second',
                                                         'type': 'value',
                                                         'value': '2022-06-10T05:39:27.286-07:00'}]}}],
     'gold_transcript_text': 'xxx dzień dobry dzień dobry proszę pana mam takie '
                             'pytanie chodzi mi o kursowanie tej linii SKM w '
                             'stronę Rembertowa z tutaj tu Warszawa Ochota '
                             'ponieważ mam takie sprzeczne informacje że nie się '
                             'zatrzymuje na Ochocie drudzy że na Centralnym '
                             'właśnie teraz w tej chwili już nie wiem nie na '
                             'Centralnym się już nie zatrzymuje on się zatrzymywał '
                             'jak był remont Tunelu Średnicowego na Śródmieściu '
                             'się zatrzymuje no właśnie to się skończyło czyli na '
                             'Śródmieściu a na Ochocie też się zatrzymuje też aha '
                             'to wobec tego dziękuję bardzo proszę bardzo do '
                             'widzenia do widzenia',
     'techmo_asr': 'dzień dobry dzień dobry proszę pana mam takie pytanie chodzi '
                   'mi o kursowanie tej linii skm w stronę rembertowa z tutaj tu '
                   'warszawa ochota przedwczesne informacja że nie mogę się '
                   'zatrzymuje na ochocie drudzy srodze że na centralnym właśnie '
                   'teraz w tej chwili już nie wiem na czym nie na centralnym się '
                   'już nie zatrzymuje on się zatrzymywał jak był remont tunelu '
                   'siatkarze dla śródmieściu się zatrzymuje czyli na śródmieściu '
                   'a na ochocie też się zatrzymuje też aha to wobec tego dziękuję '
                   'bardzo proszę bardzo widzenia do widzenia',
     'techmo_duckling': [{'body': 'dzień',
                          'dim': 'duration',
                          'end': 5,
                          'latent': False,
                          'start': 0,
                          'value': {'day': 1,
                                    'normalized': {'unit': 'second',
                                                   'value': 86400},
                                    'type': 'value',
                                    'unit': 'day',
                                    'value': 1}},
                         {'body': 'dzień',
                          'dim': 'duration',
                          'end': 17,
                          'latent': False,
                          'start': 12,
                          'value': {'day': 1,
                                    'normalized': {'unit': 'second',
                                                   'value': 86400},
                                    'type': 'value',
                                    'unit': 'day',
                                    'value': 1}},
                         {'body': ' teraz w tej chwili',
                          'dim': 'time',
                          'end': 257,
                          'latent': False,
                          'start': 238,
                          'value': {'grain': 'second',
                                    'type': 'value',
                                    'value': '2022-06-10T05:39:37.429-07:00',
                                    'values': [{'grain': 'second',
                                                'type': 'value',
                                                'value': '2022-06-10T05:39:37.429-07:00'}]}}]}