From 51f72cdfa1752b8ef4639645d8e4fcdd84a723a9 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Marcin=20W=C4=85troba?= <markowanga@gmail.com> Date: Fri, 29 Apr 2022 15:25:35 +0200 Subject: [PATCH] Update pipeline --- dvc.lock | 76 +- dvc.yaml | 36 +- experiment/luna/pos.ipynb | 4255 ----------------- .../voicelab/voicelab_pipeline_ajn_asr.py | 4 +- .../voicelab_cbiz_testset_20220322_techmo.dvc | 4 +- .../.gitignore | 8 + .../multi_files_experiment_repository.py | 9 +- 7 files changed, 109 insertions(+), 4283 deletions(-) delete mode 100644 experiment/luna/pos.ipynb create mode 100644 experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/.gitignore diff --git a/dvc.lock b/dvc.lock index 5da2911..7a9261d 100644 --- a/dvc.lock +++ b/dvc.lock @@ -55,15 +55,15 @@ stages: cmd: PYTHONPATH=. python experiment/voicelab/import_data.py deps: - path: experiment/voicelab/import_data.py - md5: 0cf7cf604b202489ce3b0cb51bb47fa2 - size: 2264 + md5: 41acb98a1517e66c052182fe0a1403ba + size: 2108 - path: experiment_data/dataset/voicelab_cbiz_testset_20220322 md5: 3c2b18e1f1f89e4c5ad7b254e472b25e.dir size: 4803739404 nfiles: 1600 outs: - path: experiment_data/dataset_relation_manager_data/voicelab_cbiz_testset_20220322 - md5: 6d56f24b0ff78c0d44ade2114158150d.dir + md5: 926ef9bab4ce41b9de95f2f3d5ab67a0.dir size: 110711470 nfiles: 1600 luna_gold_transcript_processing: @@ -179,3 +179,73 @@ stages: md5: 4cfbb2830b280084ece14b1ef815b92a.dir size: 17298 nfiles: 500 + voicelab_gold_transcript_processing: + cmd: "PYTHONPATH=. python -u experiment/voicelab/voicelab_pipeline_gold_transcript.py\n" + deps: + - path: experiment/voicelab/voicelab_pipeline_gold_transcript.py + md5: 4ba38fdfac616f8a0818cedabf66b94d + size: 2312 + - path: experiment_data/dataset/voicelab_cbiz_testset_20220322 + md5: 3c2b18e1f1f89e4c5ad7b254e472b25e.dir + size: 4803739404 + nfiles: 1600 + - path: experiment_data/dataset_relation_manager_data/voicelab_cbiz_testset_20220322 + md5: 926ef9bab4ce41b9de95f2f3d5ab67a0.dir + size: 110711470 + nfiles: 1600 + outs: + - path: experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/gold_transcript + md5: fb6812b2f3044c0285ee6ee2b21d0523.dir + size: 21846798 + nfiles: 800 + - path: experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/gold_transcript_spacy + md5: f2e68dcc8842a15e417ae6f5221a802a.dir + size: 26643278 + nfiles: 800 + voicelab_techmo_processing: + cmd: "PYTHONPATH=. python -u experiment/voicelab/voicelab_pipeline_techmo.py\n" + deps: + - path: experiment/voicelab/voicelab_pipeline_techmo.py + md5: 23c0869d7cc9f0088870362d669ab82e + size: 2685 + - path: experiment_data/cached_asr/voicelab_cbiz_testset_20220322_techmo + md5: 6c3b356723d562c978f84e733b91f5d0.dir + size: 17539259 + nfiles: 800 + - path: experiment_data/dataset/voicelab_cbiz_testset_20220322 + md5: 3c2b18e1f1f89e4c5ad7b254e472b25e.dir + size: 4803739404 + nfiles: 1600 + - path: experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/gold_transcript + md5: fb6812b2f3044c0285ee6ee2b21d0523.dir + size: 21846798 + nfiles: 800 + - path: experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/gold_transcript_spacy + md5: f2e68dcc8842a15e417ae6f5221a802a.dir + size: 26643278 + nfiles: 800 + outs: + - path: experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/pos_techmo_alignment_wer + md5: 8c5f0380ba2891b3e726d647c2863c60.dir + size: 81650836 + nfiles: 800 + - path: experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/pos_techmo_metrics_wer + md5: b1a674826142a44095a4c6439ac49024.dir + size: 27934 + nfiles: 800 + - path: experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/techmo_polish_asr + md5: c45e29b08af7bb13cdf54da9655bd96c.dir + size: 39158267 + nfiles: 800 + - path: experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/techmo_spacy + md5: a39c82666419c2b7791952a1fa116d61.dir + size: 24482297 + nfiles: 800 + - path: experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/word_techmo_alignment_wer + md5: 72ff86c7cb2e89ac7e04677f532255b2.dir + size: 83756423 + nfiles: 800 + - path: experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/word_techmo_metrics_wer + md5: 2fe3288abe85e4a385e2aefa0e8cad7e.dir + size: 27780 + nfiles: 800 diff --git a/dvc.yaml b/dvc.yaml index 590a16c..da6552d 100644 --- a/dvc.yaml +++ b/dvc.yaml @@ -62,9 +62,9 @@ stages: voicelab_gold_transcript_processing: cmd: | - PYTHONPATH=. python experiment/voicelab/voicelab_gold_transcript_processor.py + PYTHONPATH=. python -u experiment/voicelab/voicelab_pipeline_gold_transcript.py deps: - - experiment/voicelab/voicelab_gold_transcript_processor.py + - experiment/voicelab/voicelab_pipeline_gold_transcript.py - experiment_data/dataset_relation_manager_data/voicelab_cbiz_testset_20220322 - experiment_data/dataset/voicelab_cbiz_testset_20220322 outs: @@ -73,7 +73,7 @@ stages: voicelab_techmo_processing: cmd: | - PYTHONPATH=. python experiment/voicelab/voicelab_pipeline_techmo.py + PYTHONPATH=. python -u experiment/voicelab/voicelab_pipeline_techmo.py deps: - experiment/voicelab/voicelab_pipeline_techmo.py - experiment_data/dataset/voicelab_cbiz_testset_20220322 @@ -88,20 +88,20 @@ stages: - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/pos_techmo_alignment_wer - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/pos_techmo_metrics_wer - voicelab_ajn_processing: - cmd: | - PYTHONPATH=. python experiment/voicelab/voicelab_pipeline_ajn_asr.py - deps: - - experiment/voicelab/voicelab_pipeline_ajn_asr.py - - experiment_data/dataset/voicelab_cbiz_testset_20220322 - - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/gold_transcript - - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/gold_transcript_spacy - outs: - - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/ajn_polish_asr - - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/word_ajn_metrics_wer - - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/word_ajn_alignment_wer - - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/ajn_spacy - - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/pos_ajn_alignment_wer - - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/pos_ajn_metrics_wer +# voicelab_ajn_processing: +# cmd: | +# PYTHONPATH=. python -u experiment/voicelab/voicelab_pipeline_ajn_asr.py +# deps: +# - experiment/voicelab/voicelab_pipeline_ajn_asr.py +# - experiment_data/dataset/voicelab_cbiz_testset_20220322 +# - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/gold_transcript +# - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/gold_transcript_spacy +# outs: +# - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/ajn_polish_asr +# - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/word_ajn_metrics_wer +# - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/word_ajn_alignment_wer +# - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/ajn_spacy +# - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/pos_ajn_alignment_wer +# - experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/pos_ajn_metrics_wer # concurrent features, multiprocessing diff --git a/experiment/luna/pos.ipynb b/experiment/luna/pos.ipynb deleted file mode 100644 index b744f9f..0000000 --- a/experiment/luna/pos.ipynb +++ /dev/null @@ -1,4255 +0,0 @@ -{ - "cells": [ - { - "cell_type": "code", - "execution_count": 20, - "id": "4256d3f1-62cd-44c2-b4c9-3eb9df2c751d", - "metadata": {}, - "outputs": [], - "source": [ - "from luna_record_provider_new import LunaRecordProvider\n", - "from sziszapangma.integration.experiment_manager import ExperimentManager\n", - "from sziszapangma.integration.repository.multi_files_experiment_repository import MultiFilesExperimentRepository\n", - "from sziszapangma.integration.path_filter import ExtensionPathFilter\n", - "from pymongo import MongoClient\n", - "from spacy.tokens.doc import Doc\n", - "import pandas as pd" - ] - }, - { - "cell_type": "code", - "execution_count": 21, - "id": "bbe2a7bf-bb6d-42ee-b5ce-48e6ec7fcd94", - "metadata": {}, - "outputs": [], - "source": [ - "luna_directory = '/Users/marcinwatroba/Desktop/LUNA/LUNA.PL'" - ] - }, - { - "cell_type": "code", - "execution_count": 22, - "id": "4dec626b-02e4-4c78-a238-04ef2f090ea5", - "metadata": {}, - "outputs": [], - "source": [ - "experiment_repository = MultiFilesExperimentRepository('experiment_data', 'asr_benchmark_luna')" - ] - }, - { - "cell_type": "code", - "execution_count": 23, - "id": "98c6ff1d-4fbd-4b68-9e23-ecea33852b12", - "metadata": {}, - "outputs": [], - "source": [ - "record_provider = LunaRecordProvider(ExtensionPathFilter(\n", - " root_directory=luna_directory,\n", - " extension='wav'\n", - "))" - ] - }, - { - "cell_type": "code", - "execution_count": 24, - "id": "d7dd603d-2335-4bc5-9a26-bd7efa916c96", - "metadata": {}, - "outputs": [], - "source": [ - "record_id = list(record_provider.get_all_records())[0]" - ] - }, - { - "cell_type": "code", - "execution_count": 25, - "id": "0ca138ff-199d-4018-84a6-758ebdfa4ffa", - "metadata": {}, - "outputs": [ - { - "data": { - "text/plain": [ - "{'classic_wer': 0.19727891156462585}" - ] - }, - "execution_count": 25, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "experiment_repository.get_property_for_key(record_id, 'pos_metrics_wer')" - ] - }, - { - "cell_type": "code", - "execution_count": 26, - "id": "1426bc16-1598-47a6-bdfc-3e2d59b80331", - "metadata": {}, - "outputs": [], - "source": [ - "pos_alignment_wer = experiment_repository.get_property_for_key(record_id, 'pos_alignment_wer')\n", - "gold_transcript_spacy = experiment_repository.get_property_for_key(record_id, 'gold_transcript_spacy')\n", - "gold_trnascript_spacy_word_dict = {it['id']: it['word'] for it in gold_transcript_spacy}\n", - "asr_spacy = experiment_repository.get_property_for_key(record_id, 'techmo_spacy')\n", - "asr_spacy_word_dict = {it['id']: it['word'] for it in asr_spacy}" - ] - }, - { - "cell_type": "code", - "execution_count": 27, - "id": "60269a31-2d10-4cfa-9153-f2b1979941ec", - "metadata": {}, - "outputs": [ - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>DELETION</td>\n", - " <td>PRON</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>143</th>\n", - " <td>DELETION</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>144</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " </tr>\n", - " <tr>\n", - " <th>145</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " </tr>\n", - " <tr>\n", - " <th>146</th>\n", - " <td>DELETION</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>147</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>148 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 DELETION PRON xxx \n", - "1 CORRECT NOUN dzień NOUN \n", - "2 CORRECT ADJ dobry ADJ \n", - "3 CORRECT NOUN dzień NOUN \n", - "4 CORRECT ADJ dobry ADJ \n", - ".. ... ... ... ... \n", - "143 DELETION NOUN widzenia \n", - "144 CORRECT VERB proszę VERB \n", - "145 CORRECT ADV bardzo ADV \n", - "146 DELETION ADP do \n", - "147 CORRECT NOUN widzenia NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 \n", - "1 dzień \n", - "2 dobry \n", - "3 dzień \n", - "4 dobry \n", - ".. ... \n", - "143 \n", - "144 proszę \n", - "145 bardzo \n", - "146 \n", - "147 widzenia \n", - "\n", - "[148 rows x 5 columns]" - ] - }, - "execution_count": 27, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "arr = [\n", - " {\n", - " 'step_type': it['step_type'],\n", - " 'reference_word_pos': it['step_words']['reference_word']['text'] if 'reference_word' in it['step_words'] else '',\n", - " 'reference_word_text': gold_trnascript_spacy_word_dict[it['step_words']['reference_word']['id']] \n", - " if 'reference_word' in it['step_words'] else '',\n", - " 'hypothesis_word_pos': it['step_words']['hypothesis_word']['text'] if 'hypothesis_word' in it['step_words'] else '',\n", - " 'hypothesis_word_text': asr_spacy_word_dict[it['step_words']['hypothesis_word']['id']] \n", - " if 'hypothesis_word' in it['step_words'] else ''\n", - "\n", - " }\n", - " for it in pos_alignment_wer\n", - "]\n", - "pd.DataFrame(arr)" - ] - }, - { - "cell_type": "code", - "execution_count": 47, - "id": "74bf17ba-8572-4758-8116-794708b6ea08", - "metadata": {}, - "outputs": [], - "source": [ - "def get_gold_transcript_for(record_id: str) -> str:\n", - " gold_trnascript_property = experiment_repository.get_property_for_key(record_id, 'gold_transcript')\n", - " return ' '.join([it['word'] for it in gold_trnascript_property])\n", - "\n", - "def get_asr_transcript_for(record_id: str) -> str:\n", - " gold_trnascript_property = experiment_repository.get_property_for_key(record_id, 'techmo_polish_asr')\n", - " return gold_trnascript_property['full_text']\n", - "\n", - "def get_pos_alignment_df(record_id: str) -> pd.DataFrame:\n", - " pos_alignment_wer = experiment_repository.get_property_for_key(record_id, 'pos_alignment_wer')\n", - " gold_transcript_spacy = experiment_repository.get_property_for_key(record_id, 'gold_transcript_spacy')\n", - " gold_trnascript_spacy_word_dict = {it['id']: it['word'] for it in gold_transcript_spacy}\n", - " asr_spacy = experiment_repository.get_property_for_key(record_id, 'techmo_spacy')\n", - " asr_spacy_word_dict = {it['id']: it['word'] for it in asr_spacy}\n", - " \n", - " arr = [\n", - " {\n", - " 'step_type': it['step_type'],\n", - " 'reference_word_pos': it['step_words']['reference_word']['text'] if 'reference_word' in it['step_words'] else '',\n", - " 'reference_word_text': gold_trnascript_spacy_word_dict[it['step_words']['reference_word']['id']] \n", - " if 'reference_word' in it['step_words'] else '',\n", - " 'hypothesis_word_pos': it['step_words']['hypothesis_word']['text'] if 'hypothesis_word' in it['step_words'] else '',\n", - " 'hypothesis_word_text': asr_spacy_word_dict[it['step_words']['hypothesis_word']['id']] \n", - " if 'hypothesis_word' in it['step_words'] else ''\n", - "\n", - " }\n", - " for it in pos_alignment_wer\n", - " ]\n", - " return pd.DataFrame(arr)\n", - " \n", - " \n", - "def show_report_for(record_id: str):\n", - " print(f'gold transcript: {get_gold_transcript_for(record_id)}') \n", - " print()\n", - " print(f'asr transcript: {get_asr_transcript_for(record_id)}')\n", - " print()\n", - " print(f\"word wer {experiment_repository.get_property_for_key(record_id, 'techmo_polish_classic_wer_metric')}\")\n", - " print()\n", - " print(f\"pos wer {experiment_repository.get_property_for_key(record_id, 'pos_metrics_wer')}\")\n", - " print()\n", - " display(get_pos_alignment_df(record_id))\n", - " print('--------------------------------------------------------------')\n", - " print('--------------------------------------------------------------')\n", - " print('--------------------------------------------------------------')" - ] - }, - { - "cell_type": "code", - "execution_count": 48, - "id": "3395e091-3488-4b49-aede-af15a0055a8b", - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "gold transcript: xxx dzień dobry dzień dobry proszę pana mam takie pytanie jestem emerytką i chcę se kupić miesięczny bilet to ile za jakie muszę czy sto procent płacić czy połówkę a nie ma pani jeszcze siedemdziesięciu lat no nie mam proszę pani jeśli jest pani emerytką to na podstawie legitymacji emery~ emeryta i rencisty i dokumentu tożsamości jest ulga czterdzieści osiem procent czterdzieści osiem procent tak a teraz niech pan mi powie jak ja chcę kupić sobie bilet miesięczny na tą eskaemkę to ile ale pani chce tylko na eskaemkę ? na eskaemkę i na tramwaje aha a będzie pani jeździła eskaemką dokąd ? z Pruszkowa do Warszawy aha czyli musiałaby pani se taki na trzydzieści dni by kosztował panią czterdzieści sześć osiemdziesiąt czterdzieści sześć osiemdziesiąt to taki bilet bym tak to się nazywa bilet sieciowy imienny bilet sieciowy dziękuję bardzo do widzenia proszę bardzo do widzenia\n", - "\n", - "asr transcript: dzień dobry dzień dobry proszę pana ja mam takie pytanie jestem emerytką i chcę se kupić miesięczny bilet to ile za jakie muszę czy co czy połówkę a nie ma pani jeszcze siedemdziesięciu lat no nie mam proszę pani jeśli jest pani emerytką to na podstawie legitymacji emery emeryta i rencisty i dokumentu tożsamości jest ulga 48 procent tak a teraz niech pan mi powie jak ja chcę kupić sobie bilet miesięczny na tą skm kiedy ile ale pani chce tylko na skm na tramwaje aha a będzie pani jeździła skm konto kont z pruszkowa do warszawy aha czyli musiałaby pani se taki na 30 dni by kosztował panią 40 46 800 taki bilet bym tak to się nazywa bilet sieciowy imienny bilet sieciowy dziękuję bardzo proszę bardzo widzenia\n", - "\n", - "word wer {'classic_wer': 0.2328767123287671}\n", - "\n", - "pos wer {'classic_wer': 0.19727891156462585}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>DELETION</td>\n", - " <td>PRON</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>143</th>\n", - " <td>DELETION</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>144</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " </tr>\n", - " <tr>\n", - " <th>145</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " </tr>\n", - " <tr>\n", - " <th>146</th>\n", - " <td>DELETION</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>147</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>148 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 DELETION PRON xxx \n", - "1 CORRECT NOUN dzień NOUN \n", - "2 CORRECT ADJ dobry ADJ \n", - "3 CORRECT NOUN dzień NOUN \n", - "4 CORRECT ADJ dobry ADJ \n", - ".. ... ... ... ... \n", - "143 DELETION NOUN widzenia \n", - "144 CORRECT VERB proszę VERB \n", - "145 CORRECT ADV bardzo ADV \n", - "146 DELETION ADP do \n", - "147 CORRECT NOUN widzenia NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 \n", - "1 dzień \n", - "2 dobry \n", - "3 dzień \n", - "4 dobry \n", - ".. ... \n", - "143 \n", - "144 proszę \n", - "145 bardzo \n", - "146 \n", - "147 widzenia \n", - "\n", - "[148 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: dzień dobry xxx słucham dzień dobry ja się chciałem zapytać o autobus sto dwadzieścia trzy z przystanku Meissnera w kierunku Ronda Wiatraczna dobrze już momencik sto dwadzieścia trzy chwileczkę dobrze przystanek Meissnera kierunek Wiatraczna już panu podaję kiedy pan życzy dzisiaj ? tak teraz proszę bardzo proszę pana to mamy tak dwudziesta zero dziewięć i dwadzieścia dziewięć dobrze dziękuję bardzo dziękuję uprzejmie do widzenia do widzenia\n", - "\n", - "asr transcript: dzień dobry słucham dzień dobry ja się chciałem zapytać o autobus 123 z przystanku meissnera w kierunku ronda wiatraczna dobrze już momencik 100 chwileczkę dobrze przystanek meissnera kierunek wiatraczna już panu podaję kiedy pan życzy dzisiaj tak teraz proszę bardzo proszę pana to mamy tak dwudziesta 0 9 i 29 dobrze dziękuję bardzo dziękuję uprzejmie do widzenia do widzenia\n", - "\n", - "word wer {'classic_wer': 0.25757575757575757}\n", - "\n", - "pos wer {'classic_wer': 0.22727272727272727}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>DELETION</td>\n", - " <td>NOUN</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>61</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>uprzejmie</td>\n", - " <td>ADV</td>\n", - " <td>uprzejmie</td>\n", - " </tr>\n", - " <tr>\n", - " <th>62</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " </tr>\n", - " <tr>\n", - " <th>63</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " </tr>\n", - " <tr>\n", - " <th>64</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " </tr>\n", - " <tr>\n", - " <th>65</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>66 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 CORRECT NOUN dzień NOUN \n", - "1 CORRECT ADJ dobry ADJ \n", - "2 DELETION NOUN xxx \n", - "3 CORRECT VERB słucham VERB \n", - "4 CORRECT NOUN dzień NOUN \n", - ".. ... ... ... ... \n", - "61 CORRECT ADV uprzejmie ADV \n", - "62 CORRECT ADP do ADP \n", - "63 CORRECT NOUN widzenia NOUN \n", - "64 CORRECT ADP do ADP \n", - "65 CORRECT NOUN widzenia NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 dzień \n", - "1 dobry \n", - "2 \n", - "3 słucham \n", - "4 dzień \n", - ".. ... \n", - "61 uprzejmie \n", - "62 do \n", - "63 widzenia \n", - "64 do \n", - "65 widzenia \n", - "\n", - "[66 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: dobry wieczór xxx słucham dzień dobry ja mam takie pytanie bo dowiedziałam się właśnie jestem w sumie doktorantką że obowiązuje mnie czterdziestoośmioprocentowa zniżka na MZK i teraz mam takie pytanie bo ja właściwie ukończyłam studia doktoranckie dostanę świadectwo ukończenia tych studiów ale praktycznie zostało mi pisanie pracy doktorskiej i teraz mi już legitymacji nie podbijają czy dalej mogę korzystać z tej zniżki ? znaczy proszę pani ta zniżka przysługuje uczestnikom studiów doktoranckich ona przysługuje właśnie na podstawie legitymacji jeśli nie ma pani legitymacji to niestety czyli jeżeli mam po prostu nie podbijaną bo już studia ukończyłam ale jeszcze piszę pracę doktorską to już chyba raczej nie to już nie przysługuje niestety aha no to dziękuję ślicznie do widzenia bardzo proszę do usłyszenia\n", - "\n", - "asr transcript: dobry wieczór słucham dzień dobry ja mam takie pytanie bo dowiedziałam się właśnie jestem w sumie doktorantką że oboje zajmie czterdziestu ośmiu procentową edytka i teraz mam takie pytanie bo ja właściwie ukończyłam studia doktoranckie dostanę świadectwo ukończenia tych studiów ale praktycznie zostało mi pisanie pracy doktorskiej i teraz sojusz czy nie podbijałem czy dalej mogę korzystać z tej zniżki znaczy proszę pani ta zniżka przysługuje uczestnikom studiów doktoranckich ona przysługuje właśnie na podstawie legii temu nie ma pani legitymacji to niestety czyli jeżeli mam po prostu nie podbijane bo już studia ukończyłam ale jeszcze piszę pracę doktorską to już chyba raczej nie to już nie przysługuje niestety aha no to dziękuję ślicznie nadzoru nie\n", - "\n", - "word wer {'classic_wer': 0.1721311475409836}\n", - "\n", - "pos wer {'classic_wer': 0.13114754098360656}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>wieczór</td>\n", - " <td>NOUN</td>\n", - " <td>wieczór</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>DELETION</td>\n", - " <td>PRON</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>119</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>NOUN</td>\n", - " <td>nadzoru</td>\n", - " </tr>\n", - " <tr>\n", - " <th>120</th>\n", - " <td>DELETION</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>121</th>\n", - " <td>DELETION</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>122</th>\n", - " <td>DELETION</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>123</th>\n", - " <td>SUBSTITUTION</td>\n", - " <td>NOUN</td>\n", - " <td>usłyszenia</td>\n", - " <td>PART</td>\n", - " <td>nie</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>124 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 CORRECT ADJ dobry ADJ \n", - "1 CORRECT NOUN wieczór NOUN \n", - "2 DELETION PRON xxx \n", - "3 CORRECT VERB słucham VERB \n", - "4 CORRECT NOUN dzień NOUN \n", - ".. ... ... ... ... \n", - "119 CORRECT NOUN widzenia NOUN \n", - "120 DELETION ADV bardzo \n", - "121 DELETION VERB proszę \n", - "122 DELETION ADP do \n", - "123 SUBSTITUTION NOUN usłyszenia PART \n", - "\n", - " hypothesis_word_text \n", - "0 dobry \n", - "1 wieczór \n", - "2 \n", - "3 słucham \n", - "4 dzień \n", - ".. ... \n", - "119 nadzoru \n", - "120 \n", - "121 \n", - "122 \n", - "123 nie \n", - "\n", - "[124 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: dzień dobry xxx w czym mogę pomóc ? dzień dobry panu chciałam zapytać się czy na Dolnym Mokotowie jest taka ulica Kostrzewskiego ? jest jest taki przystanek nawet Kostrzewskiego czy tamtędy jeździ autobus sto sześćdziesiąt sześć przez Kostrzewskiego ? tak tutaj przez ten przystanek ? tak przejeżdża jeździ to dobrze niech mi pan teraz powie jutro a czy jest przystanek w drugą stronę w stronę Ursynowa tam gdzieś naprzeciwko tak Kostrzewskiego w stronę Ursynowa tak jest jest czyli mniej więcej naprzeciwko jest tak ? tak dokładnie tak i ten z tego przystanku Kostrzewskiego w kierunku Ursynowa jakiś autobus jutro około ósmej rano w kierunku Ursynowa tak ? tak tak bo córka musi dojechać jutro stamtąd aż na Kabaty na Kabaty tak ona będzie jechała tak po imprezie proszę panią to te sto sześćdziesiąt sześć będzie ósma osiem ósma zero osiem tak a później ósma czterdzieści pięć nie nie to ósma zero osiem rozumiem a przed ósmą jeszcze o której ? siódma czterdzieści cztery no dobra to ten ósma zero osiem będzie musiała pojechać na dziewiątą dojedzie tak tutaj to będzie na na na na nie będzie tego nie będzie chyba korków nie o tej porze to na tak dziękuję panu uprzejmie do widzenia proszę bardzo do widzenia\n", - "\n", - "asr transcript: dzień dobry w czym mogę pomóc dzień dobry panu chciałam zapytać się czy na dolnym mokotowie jest taka ulica kostrzewskiego jest taki pod kostrzewskiego czy tamtędy jeździ autobus 166 przez kostrzewskiego tak tutaj przez ten przystanek tak przejeżdża jeździ to dobrze niech mi pan teraz powie jutro a przestanę w drugą stronę w stronę ursynowa tam gdzieś naprzeciwko tak kostrzewskiego w stronę ursynowa tak jest czyli mniej więcej naprzeciwko jest tak tak dokładnie tak i ten sam po kostrzewskiego w kierunku ursynowa jakiś autobus jutro około ósmej rano w kierunku ursynowa tak tak bo córka musi dojechać jutro stamtąd aż na kabaty na kabaty ta będzie jechała tak broń bo razie to te 160 8 ósma 0 8 tak a później ósma 45 nie nie to ósma 0 8 rozumiem a przed ósmą jeszcze o której siódma 40 no dobra 0 8 będzie musiała pojechać na dziewiątą dojedzie tak tutaj to mydlana leonarda dyrektora nie będzie tego nie będzie korków nie raty i powtarzać dziękuję panu uprzejmie nie\n", - "\n", - "word wer {'classic_wer': 0.37681159420289856}\n", - "\n", - "pos wer {'classic_wer': 0.33816425120772947}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>DELETION</td>\n", - " <td>X</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>w</td>\n", - " <td>ADP</td>\n", - " <td>w</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>PRON</td>\n", - " <td>czym</td>\n", - " <td>PRON</td>\n", - " <td>czym</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>202</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>NOUN</td>\n", - " <td>panu</td>\n", - " </tr>\n", - " <tr>\n", - " <th>203</th>\n", - " <td>DELETION</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>204</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td>ADV</td>\n", - " <td>uprzejmie</td>\n", - " </tr>\n", - " <tr>\n", - " <th>205</th>\n", - " <td>DELETION</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>206</th>\n", - " <td>SUBSTITUTION</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>PART</td>\n", - " <td>nie</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>207 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 CORRECT NOUN dzień NOUN \n", - "1 CORRECT ADJ dobry ADJ \n", - "2 DELETION X xxx \n", - "3 CORRECT ADP w ADP \n", - "4 CORRECT PRON czym PRON \n", - ".. ... ... ... ... \n", - "202 CORRECT NOUN widzenia NOUN \n", - "203 DELETION VERB proszę \n", - "204 CORRECT ADV bardzo ADV \n", - "205 DELETION ADP do \n", - "206 SUBSTITUTION NOUN widzenia PART \n", - "\n", - " hypothesis_word_text \n", - "0 dzień \n", - "1 dobry \n", - "2 \n", - "3 w \n", - "4 czym \n", - ".. ... \n", - "202 panu \n", - "203 \n", - "204 uprzejmie \n", - "205 \n", - "206 nie \n", - "\n", - "[207 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: xxx dzień dobry dzień dobry jak się dostać z Ochoty na Książęcą ? jakim środkiem lokomocji ? z Ochoty na Książęcą ? tak z Ochoty a z którego miejsca z Ochoty by pani jechała ? z o to tutaj koło Hotelu Sobieskich z tego miejsca do szpitala konkretnie na Książęcą a pani chodzi do tego Szpitala Orłowskiego ? tak ? na Książęcą tak proszę pani na samą Książęcą od szpitala od Hotelu Sobieskiego nic nie ma od Centralnego ma pani sto osiemnaście aha ale sto osiemnaście i co i idzie na Książęcą ? on jedzie Książęcą albo jak pani podjedzie do Centrum to jest jeszcze sto siedemdziesiąt jeden ile ? sto siedemdziesiąt jeden tutaj sto osiemnaście a tam sto siedemdziesiąt jeden tak ? tak dziękuję proszę\n", - "\n", - "asr transcript: dzień dobry dzień dobry jak się dostać z ochoty na książęcą jakim środkiem lokomocji z ochoty na książęcą tak z ochoty a z którego miejsca z ochoty by pani jechała tutaj koło hotelu sobieski z tego miejsca do szpitala konkretnie na książęcą a pani chodzi do tego szpitala orłowskiego tak na książęcą tak czy pani na samą książęcą od szczyt nic nie ma od centralnego ma pani 118 aha ale 118 i co i idzie na książęcą on jedzie książęcą albo jak pani podjedzie docent 171 171 tutaj 118 a tam 171 tak tak dziękuję proszę\n", - "\n", - "word wer {'classic_wer': 0.4365079365079365}\n", - "\n", - "pos wer {'classic_wer': 0.29365079365079366}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>DELETION</td>\n", - " <td>PRON</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>121</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>tak</td>\n", - " <td>ADV</td>\n", - " <td>tak</td>\n", - " </tr>\n", - " <tr>\n", - " <th>122</th>\n", - " <td>DELETION</td>\n", - " <td>PUNCT</td>\n", - " <td>?</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>123</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>tak</td>\n", - " <td>ADV</td>\n", - " <td>tak</td>\n", - " </tr>\n", - " <tr>\n", - " <th>124</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " </tr>\n", - " <tr>\n", - " <th>125</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>126 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 DELETION PRON xxx \n", - "1 CORRECT NOUN dzień NOUN \n", - "2 CORRECT ADJ dobry ADJ \n", - "3 CORRECT NOUN dzień NOUN \n", - "4 CORRECT ADJ dobry ADJ \n", - ".. ... ... ... ... \n", - "121 CORRECT ADV tak ADV \n", - "122 DELETION PUNCT ? \n", - "123 CORRECT ADV tak ADV \n", - "124 CORRECT VERB dziękuję VERB \n", - "125 CORRECT VERB proszę VERB \n", - "\n", - " hypothesis_word_text \n", - "0 \n", - "1 dzień \n", - "2 dobry \n", - "3 dzień \n", - "4 dobry \n", - ".. ... \n", - "121 tak \n", - "122 \n", - "123 tak \n", - "124 dziękuję \n", - "125 proszę \n", - "\n", - "[126 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: dobry wieczór xxx słucham dobry wieczór chciałam się dowiedzieć o której godzinie odchodzi z przystanku przy ulicy Kosiarzy w stronę pętli w Wilanowie autobus linii sto osiemdziesiąt i pięćset dwadzieścia dwa chodzi mi o godzinę tak gdzieś czy będzie to za dziesięć siódma czy za pięć siódma tak przed siódmą dobrze czyli tak przystanek Kosiarzy w z kierunku którym pani mówiła ? do Wilanowa do pętli w Wilanowie to jest ostatni przystanek a do pętli w Wilanowie przed pętlą tak zgadza się proszę pani to mamy tak dzisiaj tak ? znaczy jutro rano przed a jutro rano jutro rano przed siódmą tak przed siódmą proszę bardzo proszę pani to mamy tak szósta czterdzieści trzy tak tylko momencik dobrze ja zobaczę czy nie będzie jutro zmiany rozkładu jazdy przypadkiem dobrze momencik dobrze momencik bo jeszcze na jutro nie mam ustawionego a na wszelki wypadek sprawdzę że panią w błąd nie wprowadzić dobrze mam już sto osiemdziesiąt kierunek Wilanów Kosiarzy i przed siódmą miało być ? tak proszę uprzejmie proszę pani to mamy tak szósta czterdzieści trzy tak bo potem jest siódma zero dwie aha a pięćset dwadzieścia dwa ? a pięćset dwadzieścia dwa proszę bardzo już podaję proszę pani mamy tak szósta trzydzieści jeden i pięćdziesiąt cztery i siódma zero dziewięć a jeszcze mam takie pytanie bo tam również staje autobus tylko właśnie nie pamiętam czy sto sześćdziesiąt trzy czy sto sześćdziesiąt cztery na Kosiarzy tak i jeśli już sprawdzamy tak to też o tą samą godzinę sto sześćdziesiąt cztery dobrze już sprawdzam dobrze mamy sto sześćdziesiąt cztery tutaj kierunek proszę pani to mamy tak dobrze mamy Kosiarzy proszę proszę pani to jest tak szósta dwadzieścia sześć i pięćdziesiąt jeden dziękuję pani uprzejmie dziękuję dobranoc dobranoc\n", - "\n", - "asr transcript: dobry wieczór słucham dobry wieczór chciałem się dowiedzieć o której godzinie odchodzi z przystanku przy ulicy kosiarzy w stronę pętli w wilanowie autobus linii 180 i 522 chodzi mi o godzinę tak gdzieś czy będzie to za 10 siódma czy za 5 siódma tak przed siódmą dobrze czyli tak przystanek kojarzy tak w kierunku którym pani mówiła do wilanowa do pętli fila do persowie dni przed pętlą tak tak zgadza się proszę pani to mamy tak dzisiaj tak znaczy jutro rano przed a jutro ra siódmą tak przed siódmą proszę bardzo proszę pani to mamy tak szósta 43 tak tylko momencik dobrze ja zobaczę czy nie będzie jutro zmiany rozkładu jazdy święta już momencik dobrze momencik jeszcze na jutro nie mam ustawionego a na wszelki wypadek sprawdzę że panią w błąd nie wprowadzić dobrze mam już 180 panów kosiarzy i przed siódmą miało być tak proszę uprzejmie proszę pani to mamy tak szósta 43 tak bo potem jest siódma 0 dwie aha a 502 a 522 proszę bardzo już podaję proszę pani mamy tak szósta 31 i 54 0 9 a jeszcze mam takie pytanie bo tam również staje autobus tylko właśnie nie pamiętam czy 163 czy 164 na kosiarzy tak i kreślone tak toteż tatę jeśli można właśnie nie pamiętam wulkan w końcu czy czwórkę 164 dobrze już sprawdzam dobrze mamy 164 tutaj kierunek proszę pani to mamy tak tak jarzy proszę proszę pani to jest tak szósta 26 i 51 dziękuję pani uprzejmie dziękuję dobranoc\n", - "\n", - "word wer {'classic_wer': 0.3298245614035088}\n", - "\n", - "pos wer {'classic_wer': 0.28421052631578947}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>wieczór</td>\n", - " <td>NOUN</td>\n", - " <td>wieczór</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>DELETION</td>\n", - " <td>PRON</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>283</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>pani</td>\n", - " <td>NOUN</td>\n", - " <td>pani</td>\n", - " </tr>\n", - " <tr>\n", - " <th>284</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>uprzejmie</td>\n", - " <td>ADV</td>\n", - " <td>uprzejmie</td>\n", - " </tr>\n", - " <tr>\n", - " <th>285</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " </tr>\n", - " <tr>\n", - " <th>286</th>\n", - " <td>DELETION</td>\n", - " <td>NOUN</td>\n", - " <td>dobranoc</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>287</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dobranoc</td>\n", - " <td>NOUN</td>\n", - " <td>dobranoc</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>288 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 CORRECT ADJ dobry ADJ \n", - "1 CORRECT NOUN wieczór NOUN \n", - "2 DELETION PRON xxx \n", - "3 CORRECT VERB słucham VERB \n", - "4 CORRECT ADJ dobry ADJ \n", - ".. ... ... ... ... \n", - "283 CORRECT NOUN pani NOUN \n", - "284 CORRECT ADV uprzejmie ADV \n", - "285 CORRECT VERB dziękuję VERB \n", - "286 DELETION NOUN dobranoc \n", - "287 CORRECT NOUN dobranoc NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 dobry \n", - "1 wieczór \n", - "2 \n", - "3 słucham \n", - "4 dobry \n", - ".. ... \n", - "283 pani \n", - "284 uprzejmie \n", - "285 dziękuję \n", - "286 \n", - "287 dobranoc \n", - "\n", - "[288 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: dobry wieczór xxx słucham dobry wieczór tramwaj Targowa Lubelska tutaj w stronę Gocławia a jaka linia dwadzieścia sześć co może jeszcze jeździć ósemka w stronę Gocławka szóstka w stronę Gocławia Gocławka Gocławka ? wie pan potrzebuję do Ronda Wiatraczna dojechać z jakiego przystanku na Targowej ? Lubelska to już jest na Grochowskiej Zamoyskiego Lubelska to będzie chyba nie ? no tu kończy się Zamoyskiego zaczyna Grochowska tak czy trójki to już nie będzie bo ona w teraz już wcześniej kończy szóstka ? szóstka może być dwudziesta trzecia trzy ostatnia szóstka ósemki też już nie będzie a dwadzieścia sześć ? dwudziesta druga pięćdziesiąt osiem dwudziesta trzecia osiemnaście trzydzieści osiem dobrze dziękuję uprzejmie proszę bardzo dobranoc dobranoc\n", - "\n", - "asr transcript: dobry wieczór słucham dobry wieczór tramwaj targowa lubelska tutaj w stronę gocławia a jaka linia 26 co może jeszcze jeździć ósemka w stronę gocławka rolska w stronę gocławia gocławka gocławka wie pan poczuły do ronda wiatraczna dojechać z jakiego przystanku na targowej lubelska to już jest na grochowskiej zamoyskiego lubelska to będzie chowania kończy się zamoyskiego zaczyna grochowska tak czy trójki to już nie będzie bo ona w teraz już wcześniej kończy szóstka szóstka może być dwudziesta trzecia 3 ostatnia szóstka ósemki też już nie będzie a 26 dwudziesta druga 58 dwudziesta trzecia 18 38 dobrze dziękuję dobranoc\n", - "\n", - "word wer {'classic_wer': 0.3652173913043478}\n", - "\n", - "pos wer {'classic_wer': 0.28695652173913044}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>wieczór</td>\n", - " <td>NOUN</td>\n", - " <td>wieczór</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>DELETION</td>\n", - " <td>PRON</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>110</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>uprzejmie</td>\n", - " <td>ADV</td>\n", - " <td>dobrze</td>\n", - " </tr>\n", - " <tr>\n", - " <th>111</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " </tr>\n", - " <tr>\n", - " <th>112</th>\n", - " <td>DELETION</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>113</th>\n", - " <td>DELETION</td>\n", - " <td>NOUN</td>\n", - " <td>dobranoc</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>114</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dobranoc</td>\n", - " <td>NOUN</td>\n", - " <td>dobranoc</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>115 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 CORRECT ADJ dobry ADJ \n", - "1 CORRECT NOUN wieczór NOUN \n", - "2 DELETION PRON xxx \n", - "3 CORRECT VERB słucham VERB \n", - "4 CORRECT ADJ dobry ADJ \n", - ".. ... ... ... ... \n", - "110 CORRECT ADV uprzejmie ADV \n", - "111 CORRECT VERB proszę VERB \n", - "112 DELETION ADV bardzo \n", - "113 DELETION NOUN dobranoc \n", - "114 CORRECT NOUN dobranoc NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 dobry \n", - "1 wieczór \n", - "2 \n", - "3 słucham \n", - "4 dobry \n", - ".. ... \n", - "110 dobrze \n", - "111 dziękuję \n", - "112 \n", - "113 \n", - "114 dobranoc \n", - "\n", - "[115 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: dobry wieczór xxx w czym mogę pomóc ? dobry wieczór mam takie pytania chciałbym się dowiedzieć sto sześćdziesiąt dziewięć z przystanku Żuromińska w stronę Pragi i jutro tak gdzieś przed siódmą rano w stronę Wschodniego ? tak stronę Wschodniego tak przed siódmą siódma coś koło tego proszę pana szósta czterdzieści jeden lub siódma jedenaście szósta czterdzieści jeden lub ? siódma jedenaście siódma jedenaście dobrze dziękuję proszę bardzo dobranoc\n", - "\n", - "asr transcript: dobry wieczór w czym mogę pomóc dobry wieczór mam takie pytania chciałbym się dowiedzieć 169 z przystanku szoruj miejska s jutro tak gdzieś przed siódmą rano tak przez stronę wschodniego a zresztą wschodniego tak przed siódmą siódma coś podać proszę pana szósta 41 lub siódma 11 szósta 41 lub siódma 11 siódma 11 dobrze dziękuję proszę bardzo dobranoc\n", - "\n", - "word wer {'classic_wer': 0.39705882352941174}\n", - "\n", - "pos wer {'classic_wer': 0.3382352941176471}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>wieczór</td>\n", - " <td>NOUN</td>\n", - " <td>wieczór</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>DELETION</td>\n", - " <td>PROPN</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>w</td>\n", - " <td>ADP</td>\n", - " <td>w</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>PRON</td>\n", - " <td>czym</td>\n", - " <td>PRON</td>\n", - " <td>czym</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>64</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>dobrze</td>\n", - " <td>ADV</td>\n", - " <td>dobrze</td>\n", - " </tr>\n", - " <tr>\n", - " <th>65</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " </tr>\n", - " <tr>\n", - " <th>66</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " </tr>\n", - " <tr>\n", - " <th>67</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " </tr>\n", - " <tr>\n", - " <th>68</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dobranoc</td>\n", - " <td>NOUN</td>\n", - " <td>dobranoc</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>69 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 CORRECT ADJ dobry ADJ \n", - "1 CORRECT NOUN wieczór NOUN \n", - "2 DELETION PROPN xxx \n", - "3 CORRECT ADP w ADP \n", - "4 CORRECT PRON czym PRON \n", - ".. ... ... ... ... \n", - "64 CORRECT ADV dobrze ADV \n", - "65 CORRECT VERB dziękuję VERB \n", - "66 CORRECT VERB proszę VERB \n", - "67 CORRECT ADV bardzo ADV \n", - "68 CORRECT NOUN dobranoc NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 dobry \n", - "1 wieczór \n", - "2 \n", - "3 w \n", - "4 czym \n", - ".. ... \n", - "64 dobrze \n", - "65 dziękuję \n", - "66 proszę \n", - "67 bardzo \n", - "68 dobranoc \n", - "\n", - "[69 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: dzień dobry xxx słucham dzień dobry proszę pani chciałbym zapytać się o odjazdy autobusów sto dziewięćdziesiąt siedem tak z przystanku Perzyńskiego w kierunku Dworca Zachodniego teraz po osiemnastej dobrze proszę pana osiemnasta dwadzieścia jeden i pięćdziesiąt jeden dwadzieścia jeden i pięćdziesiąt jeden aha rozumiem a jeszcze gdyby mogła pani sprawdzić o której on jest na przystanku Duracza w tym sami kierunku na przystanku Duracza proszę pana przejazd jest trzy minuty trzy minuty aha tak to są dwa przystanki rozumiem rozumiem dobrze to dziękuję bardzo dziękuję uprzejmie do widzenia\n", - "\n", - "asr transcript: dzień dobry słucham dzień dobry proszę pani chciałbym zapytać się o odjazdy autobusów 197 tak to jest wierzyńskiego w kierunku dworca zachodniego teraz po osiemnastej dobrze proszę pana osiemnasta 21 i 51 21 i 51 aha rozumiem a jeszcze gdyby mogła pani sprawdzić o której on jest duracza w tym sami kierunku na przystanku duracza proszę pana przejazd jest 3 minuty 3 minuty aha to są 2 przystanki rozumiem dobrze to dziękuję bardzo dziękuję uprzejmie do widzenia\n", - "\n", - "word wer {'classic_wer': 0.29545454545454547}\n", - "\n", - "pos wer {'classic_wer': 0.23863636363636365}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>DELETION</td>\n", - " <td>NOUN</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>83</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " </tr>\n", - " <tr>\n", - " <th>84</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " </tr>\n", - " <tr>\n", - " <th>85</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>uprzejmie</td>\n", - " <td>ADV</td>\n", - " <td>uprzejmie</td>\n", - " </tr>\n", - " <tr>\n", - " <th>86</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " </tr>\n", - " <tr>\n", - " <th>87</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>88 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 CORRECT NOUN dzień NOUN \n", - "1 CORRECT ADJ dobry ADJ \n", - "2 DELETION NOUN xxx \n", - "3 CORRECT VERB słucham VERB \n", - "4 CORRECT NOUN dzień NOUN \n", - ".. ... ... ... ... \n", - "83 CORRECT ADV bardzo ADV \n", - "84 CORRECT VERB dziękuję VERB \n", - "85 CORRECT ADV uprzejmie ADV \n", - "86 CORRECT ADP do ADP \n", - "87 CORRECT NOUN widzenia NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 dzień \n", - "1 dobry \n", - "2 \n", - "3 słucham \n", - "4 dzień \n", - ".. ... \n", - "83 bardzo \n", - "84 dziękuję \n", - "85 uprzejmie \n", - "86 do \n", - "87 widzenia \n", - "\n", - "[88 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: xxx dzień dobry dzień dobry proszę pana na Karolin tutaj ze Świętokrzyskiej to sto pięćdziesiąt pięć jedzie prawda ? sto pięćdziesiąt pięć tylko chwileczkę czy dzisiaj jest zmiana trasy tak ze Świętokrzyskiej na Karolin może pani dobrze czy mógłby pan mi dwa najbliższe podać ? dobrze i powiedzieć ile się jedzie do Fortu Wola bo tam z Fortu Wola ja się potem chciałam na siedemset trzynaście przesiąść a pani będzie wsiadała tutaj przy metrze ? czy przy Nowym Świecie przy Nowym Świecie dobrze do Fort Wola to jest około pół godziny przejazd odjazdy są dziesiąta trzydzieści siedem jedenasta zero dwa najbliższe a bo tak bo jest dziesiąta tak bo się czas zmienił jeszcze stary zegarek dobrze a potem siedem to czy jedenasta zero dwa tak powiedzmy jedenasta czterdzieści no mniej więcej i stamtąd jest ojej jedenasta dwadzieścia albo dwunasta zero zero czyli musiałaby pani tym wcześniejszym jechać a a mógłby pan sprawdzić kombinację jakbym jechała na przykład co tam jedzie dwadzieścia nie dwadzieścia dwa nie jedzie dwadzieścia sześć od Bankowego a to nie ja muszę mieć coś z Alej z Alej tam jest ósemka ? ósemka ósemka tak to ósemka wyglądałoby tak ósemka jedzie godzinę dziesiąta czterdzieści dwa albo jedenasta dwanaście to na to samo wychodzi no tak wygląda że że jakby pani chciała zdążyć na ten dwunasta zero zero no to można jechać jedenasta dwanaście i z oczekiwanie albo dziesiąta ile jedzie ósemka ? tam do Fortu Wola przepraszam też też to jest w granicach pół godziny jazdy czyli na to samo wychodzi na to samo wychodzi dobrze a teraz jeszcze powrotne z Bronisz gdzieś w okolicach czternastej dobrze wiedziała jak tam mam potem celować czternasta jedenaście i pięćdziesiąt jeden a wcześniejszy jeszcze na trzynasta trzydzieści jeden trzydzieści jeden dobra dziękuję bardzo dziękuję do widzenia do widzenia\n", - "\n", - "asr transcript: dzień dobry dzień dobry proszę pana na karolin tutaj ze świętokrzyskiej to 155 jedzie prawda 150 tylko chwileczkę czy dzisiaj jest zmiana trasy tak ze świętokrzyskiej na karolin może pani dobrze to mogłem pan 2 najbliższe podać dobrze i powiedzieć ile się jedzie do fortu wola warto wola ja się potem chciałam na 713 przesiąść a pani będzie shella tutaj przy metrze 3 3 razem świecie przy nowym świecie dobrze dla to jest około pół godziny przejazd odjazdy są dziesiąta 37 jedenasta 0 2 najbliższe a bo tak bo jest dziesiąta tak bo się czas zmienił jeszcze stary zegarek dobrze a potem 7 to czy jedenasta 0 2 realne powiedzmy jedenasta 40 danny fala mniej więcej tamta nt jest ojej jedenasta 20 jest albo dwunasta 0 0 czyli musiałaby pani tym wcześniejszym nie kombinacja michała na przykład co tam jedzie 20 nie 22 nie jedzie 26 od bankowego a to nie ja muszę mieć coś z alej czemu kanka ósemka tak to ósemka wyglądałoby tak ósemka jedzie godzinę dziesiąta 42 albo jedenasta 12 to na to samo wychodzi no tak wygląda że że jakby pani chciała zdążyć na ten dwunasta 0 0 no tak jedenasta 12 i z oczekiwanie albo dziesiąta ile jedzie ósemka tam do fortu wola przepraszam też to jest w granicach pół godz kto i na to samo wychodzi na to samo dobrze a teraz jeszcze powrotne z bronisz gdzieś w okolicach czternastej dobrze wiedziała jak tam mam potem celować czternasta 11 i 51 a wcześniejszy jeszcze na trzynasta 31 31 dobrze dziękuję bardzo do widzenia\n", - "\n", - "word wer {'classic_wer': 0.35570469798657717}\n", - "\n", - "pos wer {'classic_wer': 0.31543624161073824}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>DELETION</td>\n", - " <td>PRON</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>295</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " </tr>\n", - " <tr>\n", - " <th>296</th>\n", - " <td>DELETION</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>297</th>\n", - " <td>SUBSTITUTION</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " </tr>\n", - " <tr>\n", - " <th>298</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " </tr>\n", - " <tr>\n", - " <th>299</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>300 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 DELETION PRON xxx \n", - "1 CORRECT NOUN dzień NOUN \n", - "2 CORRECT ADJ dobry ADJ \n", - "3 CORRECT NOUN dzień NOUN \n", - "4 CORRECT ADJ dobry ADJ \n", - ".. ... ... ... ... \n", - "295 CORRECT VERB dziękuję VERB \n", - "296 DELETION ADP do \n", - "297 SUBSTITUTION NOUN widzenia ADV \n", - "298 CORRECT ADP do ADP \n", - "299 CORRECT NOUN widzenia NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 \n", - "1 dzień \n", - "2 dobry \n", - "3 dzień \n", - "4 dobry \n", - ".. ... \n", - "295 dziękuję \n", - "296 \n", - "297 bardzo \n", - "298 do \n", - "299 widzenia \n", - "\n", - "[300 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: dzień dobry xxx słucham dzień dobry chodzi mi o Szybką Kolej Miejską tak mieszkam w Pruszkowie skończyłem siedemdziesiąt lat czy mam prawo do bezpłatnego przejazdu ? tak proszę pana ma pan prawo do bezpłatnych przejazdów od Pruszkowa do Warszawy na całej długości trasy linii Szybkiej Kolei Miejskiej dziękuję uprzejmie bardzo proszę do widzenia do usłyszenia\n", - "\n", - "asr transcript: dzień dobry słucham dzień dobry chodzi mi o szybką kolej miejską tak mieszkam w pruszkowie skończyłem 70 czy mam prawo do bezpłatnego przejazdu tak proszę pana ma pan prawo do bezpłatnych przejazdów 8 łóżkowa do warszawy na całej długości trasy linii szybkiej kolei miejskiej przechylenia do usłyszenia\n", - "\n", - "word wer {'classic_wer': 0.36363636363636365}\n", - "\n", - "pos wer {'classic_wer': 0.21818181818181817}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>DELETION</td>\n", - " <td>NOUN</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>5</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>6</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>chodzi</td>\n", - " <td>VERB</td>\n", - " <td>chodzi</td>\n", - " </tr>\n", - " <tr>\n", - " <th>7</th>\n", - " <td>CORRECT</td>\n", - " <td>PRON</td>\n", - " <td>mi</td>\n", - " <td>PRON</td>\n", - " <td>mi</td>\n", - " </tr>\n", - " <tr>\n", - " <th>8</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>o</td>\n", - " <td>ADP</td>\n", - " <td>o</td>\n", - " </tr>\n", - " <tr>\n", - " <th>9</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>Szybką</td>\n", - " <td>ADJ</td>\n", - " <td>szybką</td>\n", - " </tr>\n", - " <tr>\n", - " <th>10</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>Kolej</td>\n", - " <td>NOUN</td>\n", - " <td>kolej</td>\n", - " </tr>\n", - " <tr>\n", - " <th>11</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>Miejską</td>\n", - " <td>ADJ</td>\n", - " <td>miejską</td>\n", - " </tr>\n", - " <tr>\n", - " <th>12</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>tak</td>\n", - " <td>ADV</td>\n", - " <td>tak</td>\n", - " </tr>\n", - " <tr>\n", - " <th>13</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>mieszkam</td>\n", - " <td>VERB</td>\n", - " <td>mieszkam</td>\n", - " </tr>\n", - " <tr>\n", - " <th>14</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>w</td>\n", - " <td>ADP</td>\n", - " <td>w</td>\n", - " </tr>\n", - " <tr>\n", - " <th>15</th>\n", - " <td>SUBSTITUTION</td>\n", - " <td>PROPN</td>\n", - " <td>Pruszkowie</td>\n", - " <td>NOUN</td>\n", - " <td>pruszkowie</td>\n", - " </tr>\n", - " <tr>\n", - " <th>16</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>skończyłem</td>\n", - " <td>VERB</td>\n", - " <td>skończyłem</td>\n", - " </tr>\n", - " <tr>\n", - " <th>17</th>\n", - " <td>CORRECT</td>\n", - " <td>NUM</td>\n", - " <td>siedemdziesiąt</td>\n", - " <td>NUM</td>\n", - " <td>70</td>\n", - " </tr>\n", - " <tr>\n", - " <th>18</th>\n", - " <td>DELETION</td>\n", - " <td>NOUN</td>\n", - " <td>lat</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>19</th>\n", - " <td>SUBSTITUTION</td>\n", - " <td>CCONJ</td>\n", - " <td>czy</td>\n", - " <td>PART</td>\n", - " <td>czy</td>\n", - " </tr>\n", - " <tr>\n", - " <th>20</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>mam</td>\n", - " <td>VERB</td>\n", - " <td>mam</td>\n", - " </tr>\n", - " <tr>\n", - " <th>21</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>prawo</td>\n", - " <td>NOUN</td>\n", - " <td>prawo</td>\n", - " </tr>\n", - " <tr>\n", - " <th>22</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " </tr>\n", - " <tr>\n", - " <th>23</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>bezpłatnego</td>\n", - " <td>ADJ</td>\n", - " <td>bezpłatnego</td>\n", - " </tr>\n", - " <tr>\n", - " <th>24</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>przejazdu</td>\n", - " <td>NOUN</td>\n", - " <td>przejazdu</td>\n", - " </tr>\n", - " <tr>\n", - " <th>25</th>\n", - " <td>DELETION</td>\n", - " <td>PUNCT</td>\n", - " <td>?</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>26</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>tak</td>\n", - " <td>ADV</td>\n", - " <td>tak</td>\n", - " </tr>\n", - " <tr>\n", - " <th>27</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " </tr>\n", - " <tr>\n", - " <th>28</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>pana</td>\n", - " <td>NOUN</td>\n", - " <td>pana</td>\n", - " </tr>\n", - " <tr>\n", - " <th>29</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>ma</td>\n", - " <td>VERB</td>\n", - " <td>ma</td>\n", - " </tr>\n", - " <tr>\n", - " <th>30</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>pan</td>\n", - " <td>NOUN</td>\n", - " <td>pan</td>\n", - " </tr>\n", - " <tr>\n", - " <th>31</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>prawo</td>\n", - " <td>NOUN</td>\n", - " <td>prawo</td>\n", - " </tr>\n", - " <tr>\n", - " <th>32</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " </tr>\n", - " <tr>\n", - " <th>33</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>bezpłatnych</td>\n", - " <td>ADJ</td>\n", - " <td>bezpłatnych</td>\n", - " </tr>\n", - " <tr>\n", - " <th>34</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>przejazdów</td>\n", - " <td>NOUN</td>\n", - " <td>przejazdów</td>\n", - " </tr>\n", - " <tr>\n", - " <th>35</th>\n", - " <td>SUBSTITUTION</td>\n", - " <td>ADP</td>\n", - " <td>od</td>\n", - " <td>X</td>\n", - " <td>8</td>\n", - " </tr>\n", - " <tr>\n", - " <th>36</th>\n", - " <td>SUBSTITUTION</td>\n", - " <td>PROPN</td>\n", - " <td>Pruszkowa</td>\n", - " <td>ADJ</td>\n", - " <td>łóżkowa</td>\n", - " </tr>\n", - " <tr>\n", - " <th>37</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " </tr>\n", - " <tr>\n", - " <th>38</th>\n", - " <td>CORRECT</td>\n", - " <td>PROPN</td>\n", - " <td>Warszawy</td>\n", - " <td>PROPN</td>\n", - " <td>warszawy</td>\n", - " </tr>\n", - " <tr>\n", - " <th>39</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>na</td>\n", - " <td>ADP</td>\n", - " <td>na</td>\n", - " </tr>\n", - " <tr>\n", - " <th>40</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>całej</td>\n", - " <td>ADJ</td>\n", - " <td>całej</td>\n", - " </tr>\n", - " <tr>\n", - " <th>41</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>długości</td>\n", - " <td>NOUN</td>\n", - " <td>długości</td>\n", - " </tr>\n", - " <tr>\n", - " <th>42</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>trasy</td>\n", - " <td>NOUN</td>\n", - " <td>trasy</td>\n", - " </tr>\n", - " <tr>\n", - " <th>43</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>linii</td>\n", - " <td>NOUN</td>\n", - " <td>linii</td>\n", - " </tr>\n", - " <tr>\n", - " <th>44</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>Szybkiej</td>\n", - " <td>ADJ</td>\n", - " <td>szybkiej</td>\n", - " </tr>\n", - " <tr>\n", - " <th>45</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>Kolei</td>\n", - " <td>NOUN</td>\n", - " <td>kolei</td>\n", - " </tr>\n", - " <tr>\n", - " <th>46</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>Miejskiej</td>\n", - " <td>ADJ</td>\n", - " <td>miejskiej</td>\n", - " </tr>\n", - " <tr>\n", - " <th>47</th>\n", - " <td>DELETION</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>48</th>\n", - " <td>DELETION</td>\n", - " <td>ADV</td>\n", - " <td>uprzejmie</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>49</th>\n", - " <td>DELETION</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>50</th>\n", - " <td>DELETION</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>51</th>\n", - " <td>DELETION</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>52</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>NOUN</td>\n", - " <td>przechylenia</td>\n", - " </tr>\n", - " <tr>\n", - " <th>53</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " </tr>\n", - " <tr>\n", - " <th>54</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>usłyszenia</td>\n", - " <td>NOUN</td>\n", - " <td>usłyszenia</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 CORRECT NOUN dzień NOUN \n", - "1 CORRECT ADJ dobry ADJ \n", - "2 DELETION NOUN xxx \n", - "3 CORRECT VERB słucham VERB \n", - "4 CORRECT NOUN dzień NOUN \n", - "5 CORRECT ADJ dobry ADJ \n", - "6 CORRECT VERB chodzi VERB \n", - "7 CORRECT PRON mi PRON \n", - "8 CORRECT ADP o ADP \n", - "9 CORRECT ADJ Szybką ADJ \n", - "10 CORRECT NOUN Kolej NOUN \n", - "11 CORRECT ADJ Miejską ADJ \n", - "12 CORRECT ADV tak ADV \n", - "13 CORRECT VERB mieszkam VERB \n", - "14 CORRECT ADP w ADP \n", - "15 SUBSTITUTION PROPN Pruszkowie NOUN \n", - "16 CORRECT VERB skończyłem VERB \n", - "17 CORRECT NUM siedemdziesiąt NUM \n", - "18 DELETION NOUN lat \n", - "19 SUBSTITUTION CCONJ czy PART \n", - "20 CORRECT VERB mam VERB \n", - "21 CORRECT NOUN prawo NOUN \n", - "22 CORRECT ADP do ADP \n", - "23 CORRECT ADJ bezpłatnego ADJ \n", - "24 CORRECT NOUN przejazdu NOUN \n", - "25 DELETION PUNCT ? \n", - "26 CORRECT ADV tak ADV \n", - "27 CORRECT VERB proszę VERB \n", - "28 CORRECT NOUN pana NOUN \n", - "29 CORRECT VERB ma VERB \n", - "30 CORRECT NOUN pan NOUN \n", - "31 CORRECT NOUN prawo NOUN \n", - "32 CORRECT ADP do ADP \n", - "33 CORRECT ADJ bezpłatnych ADJ \n", - "34 CORRECT NOUN przejazdów NOUN \n", - "35 SUBSTITUTION ADP od X \n", - "36 SUBSTITUTION PROPN Pruszkowa ADJ \n", - "37 CORRECT ADP do ADP \n", - "38 CORRECT PROPN Warszawy PROPN \n", - "39 CORRECT ADP na ADP \n", - "40 CORRECT ADJ całej ADJ \n", - "41 CORRECT NOUN długości NOUN \n", - "42 CORRECT NOUN trasy NOUN \n", - "43 CORRECT NOUN linii NOUN \n", - "44 CORRECT ADJ Szybkiej ADJ \n", - "45 CORRECT NOUN Kolei NOUN \n", - "46 CORRECT ADJ Miejskiej ADJ \n", - "47 DELETION VERB dziękuję \n", - "48 DELETION ADV uprzejmie \n", - "49 DELETION ADV bardzo \n", - "50 DELETION VERB proszę \n", - "51 DELETION ADP do \n", - "52 CORRECT NOUN widzenia NOUN \n", - "53 CORRECT ADP do ADP \n", - "54 CORRECT NOUN usłyszenia NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 dzień \n", - "1 dobry \n", - "2 \n", - "3 słucham \n", - "4 dzień \n", - "5 dobry \n", - "6 chodzi \n", - "7 mi \n", - "8 o \n", - "9 szybką \n", - "10 kolej \n", - "11 miejską \n", - "12 tak \n", - "13 mieszkam \n", - "14 w \n", - "15 pruszkowie \n", - "16 skończyłem \n", - "17 70 \n", - "18 \n", - "19 czy \n", - "20 mam \n", - "21 prawo \n", - "22 do \n", - "23 bezpłatnego \n", - "24 przejazdu \n", - "25 \n", - "26 tak \n", - "27 proszę \n", - "28 pana \n", - "29 ma \n", - "30 pan \n", - "31 prawo \n", - "32 do \n", - "33 bezpłatnych \n", - "34 przejazdów \n", - "35 8 \n", - "36 łóżkowa \n", - "37 do \n", - "38 warszawy \n", - "39 na \n", - "40 całej \n", - "41 długości \n", - "42 trasy \n", - "43 linii \n", - "44 szybkiej \n", - "45 kolei \n", - "46 miejskiej \n", - "47 \n", - "48 \n", - "49 \n", - "50 \n", - "51 \n", - "52 przechylenia \n", - "53 do \n", - "54 usłyszenia " - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: dzień dobry xxx w czym mogę pomóc ? moje uszanowanie panu proszę pana chcę się upewnić czy na ulicę Spartańską do szpitala to jeździ sto dziewiętnaście ? nie proszę pana sto osiemnaście sto osiemnaście sto osiemnaście bądź sto dwadzieścia dwa dojeżdża i sto dwadzieścia dwa tak proszę pana a sto osiemnaście czy on przejeżdża koło Dworca Ochota ? koło Dworca Ochota nie proszę pana skręca przy Chałubińskiego w Chałubińskiego to to gdybym jechał przy Dworcu Centralnym pociągiem z Milanówka to gdzie najlepiej w jaki a pan będzie jechał ? od Milanówka pociągiem elektrycznym ale czy wukadką czy Kolejami Mazowieckimi ? nie nie nie dużą koleją dużą czyli to najwygodniej by było wysiąść na Śródmieściu Śródmieście tak ? tak i tutaj wyjść na górę i naprzeciwko Hotelu Polonia jest przystanek dla sto osiemnaście aha na na Marszałkowskiej ? to znaczy przystanek sam jest zlokalizowany na w Alejach Jerozolimskich w Alejach Jerozolimskich tak bo on jedzie naprzeciwko po aha naprzeciwko Hotelu Polonia rozumiem rozumiem sto osiemnaście i on dojeżdża do pod sam Instytut Reumatologii rozumiem aha ma tam przystanek tam jest koniec tam pętla tak znaczy kończy kończy przystanek dalej ale ma przystanek Instytutu Reumatologii rozumiem rozumiem rozumiem bardzo panu a sto dwadzieścia dwa z Nowego Światu tak sto dwadzieścia dwa to musiałby pan z Powiśla i troszeczkę dojść to ja wiem to ja wiem tak dziękuję panu pięknie proszę bardzo\n", - "\n", - "asr transcript: dzień dobry proszę o pomoc moje uszanowanie panu proszę pana chcę się upewnić czy na ulicę spartańską do szpi to jeździ 119 nie proszę pana 118 118 118 bądź 122 dojeżdża i 122 tak proszę pana 118 czy on przejeżdża koło dworca ochota koło dworca ochota nie proszę pana skręca przy chałubińskiego chałbiński gdyby przy dworcu centralnym pociągiem z milanówka to gdzie najlepiej w jaki a pan będzie jechał od milanówka po słyszymy ale czy wkładką czego miałam nie dużą koleją dużą czyli to najwygodniej by było wysiąść na śródmieściu śródmieście tak i tutaj wejść i naprzeciwko hotelu polonia jest przystanek dla 118 aha na na marszałkowskiej to znaczy przystanek sam jest zlokalizowany na w alejach jarosz w alejach jerozolimskich ta albo religią dziwko bo ha naprzeciwko hotelu polonia rozumiem rozumiem 118 i on dojeżdża do pod tu traumatologii rozumiem aha ma tam przystanek tam jest koniec tora rent znaczy kończy kończy przystanek dalej ale ma monologi bardzo panu 20 tak 122 to musiałby pan z powiśla i troszeczkę dojść to ja wiem tak dziękuję panu również formie\n", - "\n", - "word wer {'classic_wer': 0.4759825327510917}\n", - "\n", - "pos wer {'classic_wer': 0.3799126637554585}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>DELETION</td>\n", - " <td>X</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>DELETION</td>\n", - " <td>ADP</td>\n", - " <td>w</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>DELETION</td>\n", - " <td>PRON</td>\n", - " <td>czym</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>224</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " </tr>\n", - " <tr>\n", - " <th>225</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>panu</td>\n", - " <td>NOUN</td>\n", - " <td>panu</td>\n", - " </tr>\n", - " <tr>\n", - " <th>226</th>\n", - " <td>DELETION</td>\n", - " <td>ADV</td>\n", - " <td>pięknie</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>227</th>\n", - " <td>SUBSTITUTION</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " <td>PART</td>\n", - " <td>również</td>\n", - " </tr>\n", - " <tr>\n", - " <th>228</th>\n", - " <td>SUBSTITUTION</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td>NOUN</td>\n", - " <td>formie</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>229 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 CORRECT NOUN dzień NOUN \n", - "1 CORRECT ADJ dobry ADJ \n", - "2 DELETION X xxx \n", - "3 DELETION ADP w \n", - "4 DELETION PRON czym \n", - ".. ... ... ... ... \n", - "224 CORRECT VERB dziękuję VERB \n", - "225 CORRECT NOUN panu NOUN \n", - "226 DELETION ADV pięknie \n", - "227 SUBSTITUTION VERB proszę PART \n", - "228 SUBSTITUTION ADV bardzo NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 dzień \n", - "1 dobry \n", - "2 \n", - "3 \n", - "4 \n", - ".. ... \n", - "224 dziękuję \n", - "225 panu \n", - "226 \n", - "227 również \n", - "228 formie \n", - "\n", - "[229 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: dzień dobry xxx słucham dzień dobry proszę pana mam pytanie jak dojadę do Nowego Światu i wsiądę tam w jakiś sto szesnaście czy tam dwa w stronę Żoliborza chciałbym wysiąść na Placu Zamkowym czy one tam przejeżdżają jak okrążają czy wracają na Plac Zamkowy ? tak aha czyli jakoś tam okrążają pewnie Mazowiecką albo coś tam i zawracają na Plac Zamkowy tak ? tak dobrze dziękuję bardzo bardzo proszę\n", - "\n", - "asr transcript: dzień dobry słucham dzień dobry proszę pana mam pytanie jak dojadę do nowego światu i wsiądę tam w jakiś proszę 62 w stronę żoliborza chciałbym wysiąść na placu zamkowym czy one tam przejeżdżają jak okrążają czy wracają na plac zamkowy tak aha czyli jakoś tam okrążają pewnie mazowiecką albo coś tam i zawracają na plac zamkowy tak tak dobrze dziękuję bardzo proszę\n", - "\n", - "word wer {'classic_wer': 0.2753623188405797}\n", - "\n", - "pos wer {'classic_wer': 0.17391304347826086}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>DELETION</td>\n", - " <td>NOUN</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>64</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>dobrze</td>\n", - " <td>ADV</td>\n", - " <td>dobrze</td>\n", - " </tr>\n", - " <tr>\n", - " <th>65</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " </tr>\n", - " <tr>\n", - " <th>66</th>\n", - " <td>DELETION</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>67</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " </tr>\n", - " <tr>\n", - " <th>68</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>69 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 CORRECT NOUN dzień NOUN \n", - "1 CORRECT ADJ dobry ADJ \n", - "2 DELETION NOUN xxx \n", - "3 CORRECT VERB słucham VERB \n", - "4 CORRECT NOUN dzień NOUN \n", - ".. ... ... ... ... \n", - "64 CORRECT ADV dobrze ADV \n", - "65 CORRECT VERB dziękuję VERB \n", - "66 DELETION ADV bardzo \n", - "67 CORRECT ADV bardzo ADV \n", - "68 CORRECT VERB proszę VERB \n", - "\n", - " hypothesis_word_text \n", - "0 dzień \n", - "1 dobry \n", - "2 \n", - "3 słucham \n", - "4 dzień \n", - ".. ... \n", - "64 dobrze \n", - "65 dziękuję \n", - "66 \n", - "67 bardzo \n", - "68 proszę \n", - "\n", - "[69 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: dobry wieczór xxx słucham ? dobry wieczór chciałabym zapytać o której godzinie będzie najbliższy tramwaj numer dziesięć z Dworca Centralnego w kierunku Woli już sprawdzam dwudziesta druga dwadzieścia sześć ale to za trzy minuty następny czterdzieści sześć aha a proszę mi powiedzieć a ósemka czy będzie jeszcze ? wątpię ale sprawdzę nie nie nie będzie nie dobrze to dziękuję bardzo dobranoc proszę bardzo dobranoc\n", - "\n", - "asr transcript: dobry wieczór słucham dobry wieczór chciałabym zapytać o której godzinie będzie najbliższy tramwaj numer 10 centralnego w kierunku woli już sprawdzam dwudziesta druga 26 ale to za 3 minuty następny 46 aha proszę mi powiedzieć a ósemka czy będzie jeszcze reala sprawdza nie nie nie będzie nie dobrze to dziękuję bardzo proszę bardzo dobranoc\n", - "\n", - "word wer {'classic_wer': 0.28125}\n", - "\n", - "pos wer {'classic_wer': 0.21875}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>wieczór</td>\n", - " <td>NOUN</td>\n", - " <td>wieczór</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>DELETION</td>\n", - " <td>PRON</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>DELETION</td>\n", - " <td>PUNCT</td>\n", - " <td>?</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>59</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " </tr>\n", - " <tr>\n", - " <th>60</th>\n", - " <td>DELETION</td>\n", - " <td>NOUN</td>\n", - " <td>dobranoc</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>61</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " </tr>\n", - " <tr>\n", - " <th>62</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " </tr>\n", - " <tr>\n", - " <th>63</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dobranoc</td>\n", - " <td>NOUN</td>\n", - " <td>dobranoc</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>64 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 CORRECT ADJ dobry ADJ \n", - "1 CORRECT NOUN wieczór NOUN \n", - "2 DELETION PRON xxx \n", - "3 CORRECT VERB słucham VERB \n", - "4 DELETION PUNCT ? \n", - ".. ... ... ... ... \n", - "59 CORRECT ADV bardzo ADV \n", - "60 DELETION NOUN dobranoc \n", - "61 CORRECT VERB proszę VERB \n", - "62 CORRECT ADV bardzo ADV \n", - "63 CORRECT NOUN dobranoc NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 dobry \n", - "1 wieczór \n", - "2 \n", - "3 słucham \n", - "4 \n", - ".. ... \n", - "59 bardzo \n", - "60 \n", - "61 proszę \n", - "62 bardzo \n", - "63 dobranoc \n", - "\n", - "[64 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: dzień dobry xxx w czym mogę pomóc ? a dzień dobry jedno pytanko tak czy matka z dzieckiem jak wchodzi do z wózkiem wchodzi do tramwaju czy autobusu czy płaci bilet ? jak to jest ? to znaczy jeżeli chodzi o dziecko które nie jeszcze nie chodzi do pierwszej klasy to jeździ bezpłatnie no dobrze ale w wózku w głębokim wózku to wózek jako bagaż nie podlega opłacie nie podlega nie a matka ? no tutaj jeżeli nie ma żadnych praw do ulg to niestety ale bilety normalne wtedy aha nie ma tam że też trza płacić po prostu no~ tak bilety tak aha no właśnie się zapytać czy to też jest ulga jakaś czy nie nie nie tutaj w tym przypadku nie to tylko wózek z dzieckiem ewentualnie a matka to płaci dokładnie tak aha no to dziękuję proszę bardzo do widzenia do widzenia\n", - "\n", - "asr transcript: dzień dobry w czym mogę pomóc a dzień dobry jedno pytanko tak czy matka z dzieckiem jak wchodzi do z wózkiem wchodzi do czy płaci bilet jak to jest to znaczy jeżeli chodzi o dziecko które nie jeszcze nie chodzi do pierwszej klasy to jeździ bezpłatnie no dobrze ale w wózku bokiem wózku to wózek jako nie podlega opłacie podlega a matka no tutaj jeżeli nie ma żadnych praw do ulg to niestety ale bilety normalne wtedy aha nie ma tam że też trza płacić po prostu tak tak na 20 lat zapytać czy to też jest ulga jakaś czy nie nie nie tutaj w tym przypadku nie to tylko wózek z dzieckiem ewentualnie a matka to płaci dokładnie tak to dziękuję proszę bardzo do widzenia\n", - "\n", - "word wer {'classic_wer': 0.15862068965517243}\n", - "\n", - "pos wer {'classic_wer': 0.19863013698630136}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>DELETION</td>\n", - " <td>X</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>w</td>\n", - " <td>ADP</td>\n", - " <td>w</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>PRON</td>\n", - " <td>czym</td>\n", - " <td>PRON</td>\n", - " <td>czym</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>141</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " </tr>\n", - " <tr>\n", - " <th>142</th>\n", - " <td>DELETION</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>143</th>\n", - " <td>DELETION</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>144</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " </tr>\n", - " <tr>\n", - " <th>145</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>146 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 CORRECT NOUN dzień NOUN \n", - "1 CORRECT ADJ dobry ADJ \n", - "2 DELETION X xxx \n", - "3 CORRECT ADP w ADP \n", - "4 CORRECT PRON czym PRON \n", - ".. ... ... ... ... \n", - "141 CORRECT ADV bardzo ADV \n", - "142 DELETION ADP do \n", - "143 DELETION NOUN widzenia \n", - "144 CORRECT ADP do ADP \n", - "145 CORRECT NOUN widzenia NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 dzień \n", - "1 dobry \n", - "2 \n", - "3 w \n", - "4 czym \n", - ".. ... \n", - "141 bardzo \n", - "142 \n", - "143 \n", - "144 do \n", - "145 widzenia \n", - "\n", - "[146 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: dobry wieczór xxx słucham dobry wieczór chciałam się zapytać o autobus sto siedemdziesiąt dwa w stronę Dworca Zachodniego z Sadyby z przystanku kurczę ja nie wiem jak się ten przystanek nazywa to jest przy Metrze Racławicka jakoś dwa najbliższe jeżeli jeszcze jeżdżą albo jeden proszę pani sto siedemdziesiąt dwa skrzyżowanie Odyńca tak tak tak tak Odyńca chyba Niepodległości to jest przystanek Odyńca jeździ jeszcze w ogóle ? tak z tym że będą to już zjazdy na zajezdnię czyli ? więc tylko do do przystanku Wołoska czyli do do skrzyżowania Wo~ Wołoskiej a nie to nie to nie to nic to nic to dziękuję bardzo proszę bardzo do widzenia do usłyszenia\n", - "\n", - "asr transcript: dobry wieczór słucham dobry wieczór chciałem się zapytać o autobus 172 w stronę od niego sadyby z przystanku kurczę ja nie mam się przystanek nazywa to jest przy metrze racławicka jakoś 2 najbliższe jeżeli jeszcze jeżdżą albo czy wyraża pani 172 skrzyżowanie odyńca tak tak tak tak odyńca chyba zaległości to jest przystanek odyńca wiesz gdzie jeszcze w ogóle tak z tym że będą to już zjazdy na zajezdnię czyli że tylko do do przystanku wołoska czyli do nie proszę bardzo proszę bardzo do usłyszenia\n", - "\n", - "word wer {'classic_wer': 0.42727272727272725}\n", - "\n", - "pos wer {'classic_wer': 0.3153153153153153}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>wieczór</td>\n", - " <td>NOUN</td>\n", - " <td>wieczór</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>DELETION</td>\n", - " <td>PRON</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " <td>VERB</td>\n", - " <td>słucham</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>107</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " </tr>\n", - " <tr>\n", - " <th>108</th>\n", - " <td>DELETION</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>109</th>\n", - " <td>DELETION</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>110</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " </tr>\n", - " <tr>\n", - " <th>111</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>usłyszenia</td>\n", - " <td>NOUN</td>\n", - " <td>usłyszenia</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>112 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 CORRECT ADJ dobry ADJ \n", - "1 CORRECT NOUN wieczór NOUN \n", - "2 DELETION PRON xxx \n", - "3 CORRECT VERB słucham VERB \n", - "4 CORRECT ADJ dobry ADJ \n", - ".. ... ... ... ... \n", - "107 CORRECT ADV bardzo ADV \n", - "108 DELETION ADP do \n", - "109 DELETION NOUN widzenia \n", - "110 CORRECT ADP do ADP \n", - "111 CORRECT NOUN usłyszenia NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 dobry \n", - "1 wieczór \n", - "2 \n", - "3 słucham \n", - "4 dobry \n", - ".. ... \n", - "107 bardzo \n", - "108 \n", - "109 \n", - "110 do \n", - "111 usłyszenia \n", - "\n", - "[112 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: xxx dzień dobry dzień dobry informacja ? tak proszę pana jestem rencistą KRUSu to jest Kasa Rolniczego Ubezpieczenia jaka mi zniżka obowiązuje w transporcie czy w ogóle nie płacę bo bo nie mogę podjąć żadnej pracy jak jestem a ma pan pierwszą grupę inwalidzką ? to znaczy tam w KRUSie nie ma grup ale rentę pan dostaje tak ? rentę dostaje czterysta zł~ czterysta trzydzieści złotych i nie mogę podjąć żadnej pracy bo w KRUSie po dostaniu renciści nie nie nie nie można podjąć żadnej pracy rozumiem momencik proszę pana jeśli chodzi o rencistów to jeśli to nie jest żadna grupa inwalidzka pierwsza no to wtedy tylko jest zniżka czterdzieści osiem procent na podstawie odcinka renty na podstawie na podstawie aha musi pan mieć odcinki renty ewentualnie no legitymację rencisty i czterdzieści osiem procent zniżki czterdzieści osiem procent zniżki tak legitymacja żadna niepotrzebna w znaczy może pan mieć legitymację ale to musi być jeszcze jakiś dokument ze zdjęciem albo odcinek jak pan dostaje odcinki to odcinek wtedy czterdzieści osiem procent a ja~ jak kupić gdzie kupić takie bilety ? proszę pana no na każdej poczcie może pan kupić tylko prosić z ulgą czterdziestu osiem procent aha dobrze dziękuję proszę\n", - "\n", - "asr transcript: dzień dobry dzień dobry informacja tak proszę pana jestem rencistą kruszcu to jest kasa rolniczego ubezpieczenia jaka mi zniżka obowiązuje w transporcie czy w ogóle nie płacę bo bo nie mogę podjąć żadnej pracy jak jestem a ma pan pierwszą grupę inwalidzką w głosie nie ma grup ale rentę pan dostaje tak rentę dostaje 400 złote 430 złotych i nie mogę podjąć żadnej pracy bo w krusie po dostaniemy nie nie można podjąć żadnej pracy rozumiem momencik proszę pana jeśli chodzi o rencistów to jeśli to nie jest żadna grupa inwalidzka pier w sza no to wtedy tylko jest zniżka 48 procent na podstawie odci kęty na nowodwory jeździ aha no to nie musi pan mieć odcinki renty ewentualnie no legitymację rencisty i 48 procent zniżki 48 procent zniżki tak legitymacja żadna niepotrzebna w tymże po czym może mieć legitymację ale to musi być jeszcze jakiś dokument ze zdjęciem albo odcinek jak pan dostaje odcinki wtedy 48 procent a ja jak kupić gdzie kupić takie bilety proszę pana no na każdej poczcie może pan kupić tylko prosić z ulgą czterdziestu ośmiu procent waha się zostałem skąd nie konto już mam zapłacić 151 120 złote 120 złotych to wtedy mogę zapłacić połowę tej sumy liga nie dostał pan karę to nie można już finansowania przestawiłem dokumenty renty nie dogadam przestali legitymację i dowód osobisty zęba nie wziął pod uwagę musimy i nawigacja wie pan co to von zadzwoni podam panu numer do działu windykacji trzeba by do nich zadzwonić 800 820 6 826 54 51 54 54 51 5 dziewięćdziesiąty 1000 dlatego sprawy a ja się uzyskać w kasie rolniczego ubezpieczenia społecznego pierwszą grupę a to nie wiem proszę pana wśród się tam nieład język jako opiekun opiekuńcze bez pierwsza grupa złymi opiekuna jeszcze była pierwsza grupa inwalidzka to wtedy opiekun bezpłatnie jeździ ale to już niezdolne do pracy i samodzielnej egzystencji no to też by to wtedy mogę jeździć bez w darmowo dach jeśli byłaby pierwsza grupa inwalidzka nieznany samodzielnej decyzji pierwszego żyje pierwsza grupa niezdolne do pracy i samodzielnej egzystencji pierwsza globalna tak aha dobrze proszę\n", - "\n", - "word wer {'classic_wer': 1.065326633165829}\n", - "\n", - "pos wer {'classic_wer': 0.9751243781094527}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>DELETION</td>\n", - " <td>PRON</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>357</th>\n", - " <td>INSERTION</td>\n", - " <td></td>\n", - " <td></td>\n", - " <td>ADJ</td>\n", - " <td>globalna</td>\n", - " </tr>\n", - " <tr>\n", - " <th>358</th>\n", - " <td>INSERTION</td>\n", - " <td></td>\n", - " <td></td>\n", - " <td>ADV</td>\n", - " <td>tak</td>\n", - " </tr>\n", - " <tr>\n", - " <th>359</th>\n", - " <td>INSERTION</td>\n", - " <td></td>\n", - " <td></td>\n", - " <td>PART</td>\n", - " <td>aha</td>\n", - " </tr>\n", - " <tr>\n", - " <th>360</th>\n", - " <td>INSERTION</td>\n", - " <td></td>\n", - " <td></td>\n", - " <td>ADV</td>\n", - " <td>dobrze</td>\n", - " </tr>\n", - " <tr>\n", - " <th>361</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>362 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 DELETION PRON xxx \n", - "1 CORRECT NOUN dzień NOUN \n", - "2 CORRECT ADJ dobry ADJ \n", - "3 CORRECT NOUN dzień NOUN \n", - "4 CORRECT ADJ dobry ADJ \n", - ".. ... ... ... ... \n", - "357 INSERTION ADJ \n", - "358 INSERTION ADV \n", - "359 INSERTION PART \n", - "360 INSERTION ADV \n", - "361 CORRECT VERB proszę VERB \n", - "\n", - " hypothesis_word_text \n", - "0 \n", - "1 dzień \n", - "2 dobry \n", - "3 dzień \n", - "4 dobry \n", - ".. ... \n", - "357 globalna \n", - "358 tak \n", - "359 aha \n", - "360 dobrze \n", - "361 proszę \n", - "\n", - "[362 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: dzień dobry xxx w czym mogę pomóc ? proszę pana ja chciałam się dowiedzieć czy sto sześćdziesiąt siedem jeździ Ciołka czy nadal kursuje tą inną trasą to znaczy jeszcze ma trasę objazdową objazdową tak ? i jeszcze tak a to gdzie się zatrzymuje a zatrzymuje się przy jaki w stronę Wawelskiej czy zatrzymuje się przy rogu no naprzeciw Ciołka i na Górczewskiej tam się zatrzymuje ? to znaczy naprzeciw Ciołka i Górczewskiej aha czy się zatrzymuje jak on jedzie bo ja chciałam jechać na Wawelską do szpitala onkologicznego nie wiem gdzie tam można najbliżej z tego z nie tutaj z no z Górczewskiej proszę Górczewskiej przy Syreny gdzie najbliżej właśnie tam można no wsiąść przesiąść się proszę panią to autobus będzie jechał tak on jedzie ulicą Obozową potem skręca w Deotymy o zaraz to ja sobie zapiszę może dobrze ale gdzie się zatrzymuje pan mnie powie proszę panią to najlepiej to tutaj Obozowa gdzie ? proszę panią na Obozowej to byłby przystanek tutaj Koło bądź Dalibora Koło to jest na Kole tak ? tak potem on jak jak pętla tam przy działkach ? tak dokładnie tak ? tak ano to dobrze to tam może ewentualnie jak on wyjedzie z Deotymy ale to dopiero musiałaby pani przejść na ulicę Elekcyjną która odchodzi od Górczewskiej no to nie to to lepiej mnie tam podjadę tramwajem podejdę do rozumiem tramwaju podjadę tramwajem mi to znaczy przy na Księcia Janusza przy Księcia Janusza gdzieś tak tak niedaleko Księcia Janusza i on tam się zatrzymuje właśnie aha to tak znaczy ja to jest tym przy tym bazarze znaczy tak ? tak niedaleko właśnie tego bazaru tutaj byłby przystanek właśnie Dalibora wtedy to jest zaraz przy bazarze na przy bazarze bo przy bazarze jest taki przystanek tak dokładnie to tam tak ? tak to dziękuję proszę bardzo do widzenia do widzenia\n", - "\n", - "asr transcript: dzień dobry w czym mogę pomóc proszę pana ja chciałam się dowiedzieć czy 167 jeździ ciołka czy nadal kursuje tą ojej no tak czyli jeszcze ma trasę objazdową objazdową tak i jeszcze tak a to gdzie się zatrzymuje a zatrzymuje się przy jaki w stronę wawel czy zatrzymuje się przy rogu no naprzeciw ciołka jego na górczewskiej tam się zatrzymuje to znaczy naprzeciw ciołka aha czy się zatrzymuje jak on jedzie bo ja chciałam jechać na wawelską do szpitala onkologicznego nie wiem gdzie tam można grzegorz tu dojść do górczewskiej doroszewskiej przesrane gdzie najbliżej właśnie tam można na trasie się proszę panią to autobus będzie jechał tak on jedzie ulicą obozową potem skręca w deotymy zaraz to ja sobie zapiszę może dobrze ale przyjaciel to otrzymuje pan je bowiem proszę moją najlepiej święto tutaj no pozował gdzie proszę panią to byłby przystanek tutaj koło bądź dalibora koło to jest trudna ale to tak potem on jak ja k pętla tam na przydział tak dokładnie tak tak ano to dobrze to tam może ewentualnie jak on wyjedzie z deotymy ale to dopiero musiała pani przejść na ulicę elekcyjną która odchodzi od górczewskiej no to nie to miał tam podjadę tramwajem podejdę do tramwaju podjadę tramwajem mi do około to znaczy że przelew na księcia chciałem musiały gdzieś tak tak niedaleko księcia janusza nie on tam się zatrzymuje właśnie aha to tak znaczy ja jestem przy tym bazarze znaczy tak tak niedaleko właśnie tego bazaru tu taj byłby przystanek właśnie dalibora wtedy przy bazarze trzeba 2 przy bazarze jest taki przystanek tak dokładnie to tam tak tak to dziękuję proszę bardzo do widzenia\n", - "\n", - "word wer {'classic_wer': 0.3377049180327869}\n", - "\n", - "pos wer {'classic_wer': 0.2754098360655738}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>DELETION</td>\n", - " <td>X</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>w</td>\n", - " <td>ADP</td>\n", - " <td>w</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>PRON</td>\n", - " <td>czym</td>\n", - " <td>PRON</td>\n", - " <td>czym</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>304</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " </tr>\n", - " <tr>\n", - " <th>305</th>\n", - " <td>DELETION</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>306</th>\n", - " <td>DELETION</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>307</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " </tr>\n", - " <tr>\n", - " <th>308</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>309 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 CORRECT NOUN dzień NOUN \n", - "1 CORRECT ADJ dobry ADJ \n", - "2 DELETION X xxx \n", - "3 CORRECT ADP w ADP \n", - "4 CORRECT PRON czym PRON \n", - ".. ... ... ... ... \n", - "304 CORRECT ADV bardzo ADV \n", - "305 DELETION ADP do \n", - "306 DELETION NOUN widzenia \n", - "307 CORRECT ADP do ADP \n", - "308 CORRECT NOUN widzenia NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 dzień \n", - "1 dobry \n", - "2 \n", - "3 w \n", - "4 czym \n", - ".. ... \n", - "304 bardzo \n", - "305 \n", - "306 \n", - "307 do \n", - "308 widzenia \n", - "\n", - "[309 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: xxx dzień dobry dzień dobry proszę pana ja potrzebuję dojechać z przystanku Młodzieńcza tak z Ronda Waszyngtona może pan mi podać podać jak mogę dojechać od przystanku Młodzieńcza ? tak do trzeba od Młodzieńczej wsiąść albo sto dziewięćdziesiąt pięćset dwanaście siedemset osiemnaście dojechać do Dworca Wileńskiego do Wileńskiego tak ? tak i z Wileńskiego najlepiej w tramwaj dwadzieścia pięć ewentualnie autobus sto jeden z pięćset dziewięć a czy z Wileńskiego już tramwajem tak ? tak tramwaj dwadzieścia pięć dwadzieścia pięć tak ? tak dobrze dziękuję bardzo proszę bardzo a proszę pana może pan mi jeszcze powiedzieć czy ulica Francuska jest w tych okolicach ? jeszcze raz pan powtórzy ? ulica Francuska ona odchodzi od Ronda Waszyngtona odchodzi tak ? tak a Francuska pięćdziesiąt to jest jeszcze trochę drogi ? a zaraz sprawdzę nie to będzie przy Rondzie Waszyngtona przy przy Rondzie dziękuję bardzo proszę do widzenia\n", - "\n", - "asr transcript: dzień dobry dzień dobry proszę pana ja potrzebuję dojechać z przystanku młodzieńcza tak z ronda waszyngtona może dać podać jak mogę dojechać młodzieńcza tak do trzeba od młodzieńczej wsiąść albo 190 512 718 dojechać do dworca wileńskiego do wileńskiego data wiesz wileńskiego najlepiej w tramwaj 25 ewentualnie autobus 101 z 509 a czy z wileńskiego już tramwajem tramwaj 25 25 tak tak dobrze dziękuję bardzo proszę bardzo a proszę pana może pan mi jeszcze powiedzieć czy ulica francuska okolicach jeszcze raz pan powtórzy ulica francuska ona odchodzi od ronda waszyngtona odchodzi tak a francuska 50 to jest jeszcze trochę drogi a za nie to będzie przy rondzie waszyngtona przy rondzie dziękuję bardzo do widzenia\n", - "\n", - "word wer {'classic_wer': 0.4315068493150685}\n", - "\n", - "pos wer {'classic_wer': 0.3424657534246575}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>DELETION</td>\n", - " <td>PRON</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>141</th>\n", - " <td>CORRECT</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " </tr>\n", - " <tr>\n", - " <th>142</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " <td>ADV</td>\n", - " <td>bardzo</td>\n", - " </tr>\n", - " <tr>\n", - " <th>143</th>\n", - " <td>DELETION</td>\n", - " <td>VERB</td>\n", - " <td>proszę</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>144</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " </tr>\n", - " <tr>\n", - " <th>145</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>146 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 DELETION PRON xxx \n", - "1 CORRECT NOUN dzień NOUN \n", - "2 CORRECT ADJ dobry ADJ \n", - "3 CORRECT NOUN dzień NOUN \n", - "4 CORRECT ADJ dobry ADJ \n", - ".. ... ... ... ... \n", - "141 CORRECT VERB dziękuję VERB \n", - "142 CORRECT ADV bardzo ADV \n", - "143 DELETION VERB proszę \n", - "144 CORRECT ADP do ADP \n", - "145 CORRECT NOUN widzenia NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 \n", - "1 dzień \n", - "2 dobry \n", - "3 dzień \n", - "4 dobry \n", - ".. ... \n", - "141 dziękuję \n", - "142 bardzo \n", - "143 \n", - "144 do \n", - "145 widzenia \n", - "\n", - "[146 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "gold transcript: dzień dobry xxx w czym mogę pomóc ? dzień dobry proszę pana chciałam uzyskać od pana taką informację proszę mi powiedzieć że chodzi mi o ulgi chodzi mi o ulgi czy jeżeli dziecko ma bezpłatne przejazdy autobusowe i tramwajowe czy na tą szybką emzetkę dziecko też ma musi płacić bilet ? to znaczy na Szybką Kolej Miejską ? tak nie proszę panią te i te bezpłatne przejazdy również przysługują i na ten środek transportu aha dobrze dobrze bo wie pan bo dziecko ma po prostu bezpłatnie jeździ autobusami i tramwajami ja jestem jako jego opiekun po prostu chciałam się tylko dowiedzieć czy przysługuje nam taka ulga jeżeli dziecko ma taką legitymację i po prostu czy dziecko będzie może czy dziecko może jeździć na tą szybką kolej na tą legitymację tak ? tak proszę panią ze względu na to że na Szybkiej Kolei Miejskiej obowiązuje ten sam regulamin co w pojazdach komunikacji miejskiej czyli autobusy tramwaje metro aha to jest ten sam rodzaj regulaminu i proszę mi powiedzieć ona w ogóle jeździ co pół godziny ? znaczy tutaj jest tak nieregularnie co pół godziny co co czterdzieści minut czasami to zależy tutaj od pory dnia szczerze mówiąc aha dobrze bardzo panu dziękuję życzę miłego proszę bardzo dnia do widzenia dziękuję wzajemnie do widzenia\n", - "\n", - "asr transcript: dzień dobry w czym mogę pomóc dzień dobry proszę pana chciałam uzyskać od pana taką informację proszę mi powiedzieć że chodzi mi o chodzi mi o ulgi czy jeżeli dziecko ma bezpłatne przejazdy autobusowe i tramwajowe czy na tą szybką klucz do em zetkę musi płacić bilet to znaczy na szybką kolej miejską tak nie proszę panią te i te bezpłatne przejazdy również przysługują i na ten środek transportu aha dobrze dobrze bo wie pan bo dziecko ma po prostu bezpłatnie jeździ autobusami i tramwajami ja jestem jako jego opiekun po prostu chciałam się czy przysługuje nam taka ulga jeżeli dziecko ma taką legitymację i po prostu czy dziecko będzie może czy dziecko może jeździć na tą szybką kolej na tą legitymację chyba nią ze względu na to że na szybkiej kolei miejskiej obowiązuje ten sam regulamin co w pojazdach komunikacji miejskiej czyli autobusy tramwaje metro aha to jest ten sam rodzaj regule i proszę mi powiedzieć ona w ogóle jeździ co pół godziny znaczy tutaj jest tak nieregularnie co pół godziny co co 40 minut czasami to zależy od pory dnia aż aha dobrze bardzo panu dziękuję życzę miłego dnia dobrze to ja wzajemnie do widzenia\n", - "\n", - "word wer {'classic_wer': 0.15566037735849056}\n", - "\n", - "pos wer {'classic_wer': 0.1179245283018868}\n", - "\n" - ] - }, - { - "data": { - "text/html": [ - "<div>\n", - "<style scoped>\n", - " .dataframe tbody tr th:only-of-type {\n", - " vertical-align: middle;\n", - " }\n", - "\n", - " .dataframe tbody tr th {\n", - " vertical-align: top;\n", - " }\n", - "\n", - " .dataframe thead th {\n", - " text-align: right;\n", - " }\n", - "</style>\n", - "<table border=\"1\" class=\"dataframe\">\n", - " <thead>\n", - " <tr style=\"text-align: right;\">\n", - " <th></th>\n", - " <th>step_type</th>\n", - " <th>reference_word_pos</th>\n", - " <th>reference_word_text</th>\n", - " <th>hypothesis_word_pos</th>\n", - " <th>hypothesis_word_text</th>\n", - " </tr>\n", - " </thead>\n", - " <tbody>\n", - " <tr>\n", - " <th>0</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " <td>NOUN</td>\n", - " <td>dzień</td>\n", - " </tr>\n", - " <tr>\n", - " <th>1</th>\n", - " <td>CORRECT</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " <td>ADJ</td>\n", - " <td>dobry</td>\n", - " </tr>\n", - " <tr>\n", - " <th>2</th>\n", - " <td>DELETION</td>\n", - " <td>X</td>\n", - " <td>xxx</td>\n", - " <td></td>\n", - " <td></td>\n", - " </tr>\n", - " <tr>\n", - " <th>3</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>w</td>\n", - " <td>ADP</td>\n", - " <td>w</td>\n", - " </tr>\n", - " <tr>\n", - " <th>4</th>\n", - " <td>CORRECT</td>\n", - " <td>PRON</td>\n", - " <td>czym</td>\n", - " <td>PRON</td>\n", - " <td>czym</td>\n", - " </tr>\n", - " <tr>\n", - " <th>...</th>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " <td>...</td>\n", - " </tr>\n", - " <tr>\n", - " <th>207</th>\n", - " <td>SUBSTITUTION</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>AUX</td>\n", - " <td>to</td>\n", - " </tr>\n", - " <tr>\n", - " <th>208</th>\n", - " <td>SUBSTITUTION</td>\n", - " <td>VERB</td>\n", - " <td>dziękuję</td>\n", - " <td>PRON</td>\n", - " <td>ja</td>\n", - " </tr>\n", - " <tr>\n", - " <th>209</th>\n", - " <td>CORRECT</td>\n", - " <td>ADV</td>\n", - " <td>wzajemnie</td>\n", - " <td>ADV</td>\n", - " <td>wzajemnie</td>\n", - " </tr>\n", - " <tr>\n", - " <th>210</th>\n", - " <td>CORRECT</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " <td>ADP</td>\n", - " <td>do</td>\n", - " </tr>\n", - " <tr>\n", - " <th>211</th>\n", - " <td>CORRECT</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " <td>NOUN</td>\n", - " <td>widzenia</td>\n", - " </tr>\n", - " </tbody>\n", - "</table>\n", - "<p>212 rows × 5 columns</p>\n", - "</div>" - ], - "text/plain": [ - " step_type reference_word_pos reference_word_text hypothesis_word_pos \\\n", - "0 CORRECT NOUN dzień NOUN \n", - "1 CORRECT ADJ dobry ADJ \n", - "2 DELETION X xxx \n", - "3 CORRECT ADP w ADP \n", - "4 CORRECT PRON czym PRON \n", - ".. ... ... ... ... \n", - "207 SUBSTITUTION NOUN widzenia AUX \n", - "208 SUBSTITUTION VERB dziękuję PRON \n", - "209 CORRECT ADV wzajemnie ADV \n", - "210 CORRECT ADP do ADP \n", - "211 CORRECT NOUN widzenia NOUN \n", - "\n", - " hypothesis_word_text \n", - "0 dzień \n", - "1 dobry \n", - "2 \n", - "3 w \n", - "4 czym \n", - ".. ... \n", - "207 to \n", - "208 ja \n", - "209 wzajemnie \n", - "210 do \n", - "211 widzenia \n", - "\n", - "[212 rows x 5 columns]" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n", - "--------------------------------------------------------------\n" - ] - } - ], - "source": [ - "for it in list(record_provider.get_all_records())[:20]:\n", - " show_report_for(it)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "id": "27797bad-c92a-45a6-87f2-071645c18150", - "metadata": {}, - "outputs": [], - "source": [] - } - ], - "metadata": { - "kernelspec": { - "display_name": "Python 3 (ipykernel)", - "language": "python", - "name": "python3" - }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.8.13" - } - }, - "nbformat": 4, - "nbformat_minor": 5 -} diff --git a/experiment/voicelab/voicelab_pipeline_ajn_asr.py b/experiment/voicelab/voicelab_pipeline_ajn_asr.py index 285208b..d650082 100644 --- a/experiment/voicelab/voicelab_pipeline_ajn_asr.py +++ b/experiment/voicelab/voicelab_pipeline_ajn_asr.py @@ -64,4 +64,6 @@ def example_run(): if __name__ == '__main__': - example_run() + # example_run() + path = '/home/marcinwatroba/PWR_ASR/asr-benchmarks/experiment_data/dataset/voicelab_cbiz_testset_20220322/bankowe/cbiz_tc_2.agnt.wav' + print(AsrWebClient('http://localhost:5431/process_asr', '__example_token__').call_recognise(path)) diff --git a/experiment_data/cached_asr/voicelab_cbiz_testset_20220322_techmo.dvc b/experiment_data/cached_asr/voicelab_cbiz_testset_20220322_techmo.dvc index 629f0b9..968dfa0 100644 --- a/experiment_data/cached_asr/voicelab_cbiz_testset_20220322_techmo.dvc +++ b/experiment_data/cached_asr/voicelab_cbiz_testset_20220322_techmo.dvc @@ -1,5 +1,5 @@ outs: -- md5: 94b1709c05bd09b77c5a6850e2f2f373.dir - size: 34654307 +- md5: 6c3b356723d562c978f84e733b91f5d0.dir + size: 17539259 nfiles: 800 path: voicelab_cbiz_testset_20220322_techmo diff --git a/experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/.gitignore b/experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/.gitignore new file mode 100644 index 0000000..7aff3d6 --- /dev/null +++ b/experiment_data/pipeline/asr_benchmark_voicelab_cbiz_testset_20220322/.gitignore @@ -0,0 +1,8 @@ +/gold_transcript +/gold_transcript_spacy +/techmo_polish_asr +/word_techmo_metrics_wer +/word_techmo_alignment_wer +/techmo_spacy +/pos_techmo_alignment_wer +/pos_techmo_metrics_wer diff --git a/sziszapangma/integration/repository/multi_files_experiment_repository.py b/sziszapangma/integration/repository/multi_files_experiment_repository.py index 3d18f93..2385858 100644 --- a/sziszapangma/integration/repository/multi_files_experiment_repository.py +++ b/sziszapangma/integration/repository/multi_files_experiment_repository.py @@ -1,4 +1,5 @@ import json +import os.path from pathlib import Path from typing import Any, List, Optional, Set @@ -48,12 +49,12 @@ class MultiFilesExperimentRepository(ExperimentRepository): def get_all_properties(self) -> Set[str]: experiment_path = Path(self._root_directory).joinpath(self._experiment_name) - return set([it.name for it in experiment_path.iterdir()]) + return set([it.name for it in experiment_path.iterdir() if os.path.isdir(it)]) def _get_file_path(self, property_name: str, record_id: str) -> Path: return ( Path(self._root_directory) - .joinpath(self._experiment_name) - .joinpath(property_name) - .joinpath(f"{record_id}.json") + .joinpath(self._experiment_name) + .joinpath(property_name) + .joinpath(f"{record_id}.json") ) -- GitLab