ナード戦隊データマン

機械学習と自然言語処理についてのブログ

2019-08-02から1日間の記事一覧

youtube-dlを使ってYoutube動画の字幕からパラレルコーパスを生成

youtube-dl1は、youtube動画をダウンロードするためのCLIツールです。 インストール Unix系ユーザーは以下のコマンドでインストールが可能です。 sudo curl -L https://yt-dl.org/downloads/latest/youtube-dl -o /usr/local/bin/youtube-dl sudo chmod a+rx…

bitextor: Webから自動的にパラレルコーパスを生成するツール

bitextor1とは、指定したホストから自動的にパラレルコーパスを収集するツールです。 概要 実行方法 dockerコンテナに入る 必要なものを入れる トーカナイザの準備(mecab-tokenizer.perl) パラレルコーパスの準備 myconfig.yamlを書く 実行 結果 考察 追記 …