ナード戦隊データマン

機械学習, 自然言語処理, データサイエンスについてのブログ

2019-08-26から1日間の記事一覧

逆翻訳をtensor2tensorで実行

逆翻訳とは、ターゲット言語のモノリンガルコーパスを訓練済みNMTで翻訳することによりデータを増やす方法です。 実行フロー tensor2tensorでの実行方法 vocabの生成 シェルスクリプト myproblem.pyの中身 まとめ 補足 placeholder 文の長さに対する補正 言…

NMTのドメイン適応

ドメイン適応とは、ソースデータの分布から、異なる分布をもつターゲットデータで高いパフォーマンスを出すモデルを訓練する手法です。 ざっくり Data Centric 単一言語コーパスの使用 合成並列コーパス生成 ドメイン外並列コーパスの使用 Model Centric ト…