pipeline_process_gold_transcript.py

import argparse

from experiment.experiment_dependency_provider import get_repository, get_record_provider, get_gold_transcript_processor
from sziszapangma.integration.experiment_manager import ExperimentManager
from sziszapangma.integration.task.gold_transcript_task import GoldTranscriptTask
from experiment.const_pipeline_names import GOLD_TRANSCRIPT


def run_gold_transcript_pipeline(dataset_name: str):
    record_provider = get_record_provider(dataset_name)
    ExperimentManager(
        record_id_iterator=record_provider,
        processing_tasks=[
            GoldTranscriptTask(
                task_name=f'GoldTranscriptTask___{dataset_name}',
                gold_transcript_processor=get_gold_transcript_processor(dataset_name, record_provider),
                gold_transcript_property_name=GOLD_TRANSCRIPT,
                require_update=False
            )
        ],
        experiment_repository=get_repository(dataset_name),
        relation_manager_provider=record_provider
    ).process()


if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument("--dataset")
    args = parser.parse_args()
    run_gold_transcript_pipeline(args.dataset)