データナード

機械学習と自然言語処理についての備忘録 (旧ナード戦隊データマン)

2020-04-03から1日間の記事一覧

OPUSからデータを得てアラインメントする

OPUSとは、継続的に更新を続けている公開パラレルコーパスのコレクションです。 概要 コード 参考 概要 LASERの訓練時に、WikiMatrixを使っていましたが、データの質が悪いらしく、Sentence Embeddingがまともに機能しませんでした。そのため、LASERの論文内…