データナード

機械学習と自然言語処理についての備忘録 (旧ナード戦隊データマン)

2019-11-15から1日間の記事一覧

字幕コーパスJESCのコードを理解し、パラレルコーパスを作成する

JESCとは、ネット上からクロールされた字幕データを用いた日英パラレルコーパスです。 概要 corpus_generation subscene_crawler.py parser_v4.py ドキュメントアラインメント 文アラインメント subscene_crawlerの機能追加とリファクタリング 追加したい機…