ナード戦隊データマン

機械学習と自然言語処理についてのブログ

2019-08-06から1日間の記事一覧

webvtt形式のパラレルコーパスのalignment

webvtt1は字幕データの一般的なファイル形式です。 概要 コード align.py align_example.py アルゴリズムの説明 抽出結果の一部 考察 追記 参考 概要 youtube-dl2を使って字幕データのパラレルコーパスを生成した場合、そのままの状態では1対1の文のペアには…