ナード戦隊データマン

機械学習と自然言語処理についてのブログ

MTNTデータセットとは何か

MTNT1は、Redditから収集されたノイズありテキストに対する翻訳のためのテストベッドです。

ダウンロード

データセットは以下からダウンロードできます。

https://www.cs.cmu.edu/~pmichel1/mtnt/

ノイズありテキストとは

ソーシャルメディアのテキストにはいくつかの種類のノイズがあります。

  • スペルミス, タイポ: across -> accross
  • 文法ミス: a ton of -> a tons of
  • 話し言葉: want to -> wanna
  • ネットスラング: to be honest -> tbh
  • 固有名詞: Reddit -> reddit
  • 方言: 東北弁
  • 言語の入れ替え: This is so cute -> This is so kawaii
  • 専門用語: Redditの場合は、"upvote"などの単語
  • 絵文字
  • 時々マスクされるProfanities: f*ck

こういうノイズに対して、今までのMTシステムは弱いといわれています。

適応問題として捉えられるか?

ある程度まではノイズの問題は適応問題の一種として捉えられるかもしれません。しかし、特定の単語が一般ドメインとは異なる方法で翻訳されたり、入力される文法の不一致や単語エラーなどのバリエーションが増すので、適応を実行してもノイズに起因するエラーが出てきてしまいます。

MTNTはどのように収集されているか

f:id:mathgeekjp:20190821104539g:plain

3.1. reddit APIからコメントを収集。

3.3. urlや他言語やボットを排除。

3.3 トーカナイズして、小文字にして、markdownをstripする。

3.3 (optional) OOV語を含むコメントだけ残す。

3.3 subword LM scoreによるフィルタリング。(BPEによる言語モデル)

3.4 15kごとにコメントを手動翻訳のための外部ベンダーに送信し、翻訳を受け取る。受け取った翻訳は品質にばらつきがあるため、品質を検証したもの1000件をテストデータにし、残りを訓練データにする。

データソースは以下

  • 英語: 英語は圧倒的なデータ量があるため、コミュニティを限定しない。03/27/2018-03/29/3018
  • フランス語: /r/france, /r/quebec, /r/rance 09/2018-03/2018
  • 日本語: /r/newsokur, /r/bakanewsjp, /r/newsokuvip, /r/lowlevelaware, /r/steamr 11/2017-03/2018

ノイズ解析

  • Grammarlyというツールを使って英語の文法チェックをする。
  • フランス語と日本語はMicrosoft Wordの統合スペルチェッカーでテストする。
  • 正規表現を使い、絵文字や"f*ck"のような語の数をカウントする。
  • 100ワードごとのノイズカウントを記録する。

f:id:mathgeekjp:20190821105141g:plain

  • MTNTのノイズは、ニュースコーパスに比べて有意に高い。ただし、日本語は言語としてスペルミスが少ない傾向にある。JESCのほうがProfanitiesは多い。

実験モデル

  • 実験に使うモデルは、XNMTツールキットを使用してDyNetで実装。 すべての言語ペアにほぼ同じ設定を使用。
  • エンコーダーは2層の双方向LSTM、アテンションメカニズムは多層パーセプトロンデコーダーは2層LSTM。
  • 埋め込み次元は512で、他のすべての次元は1024。
  • ターゲットワードの埋め込みと出力投影の重みを結び付ける。
  • XNMTのデフォルトのハイパーパラメーターとドロップアウト(確率0.3)を使用して、Adamでトレーニング。
  • BPEサブワードを使用してOOVワードを処理。

コード: https://github.com/pmichel31415/mtnt

sacreBLEUを使って評価したところ、以下のスコアが出ています。 f:id:mathgeekjp:20190821105644g:plain

ドメイン適応のためのファインチューニングを行うとスコアが向上します。

f:id:mathgeekjp:20190821110004g:plain

考察

ノイズの多いテキストコンテンツは、言語タスクの主要なデータソースであるニュースコーパスと比較すると、ノイズが多い2

ニュースドメインには存在しないさまざまな言語現象が含まれており、モデルをドメイン外のデータに適用すると品質が低下するため、独自の課題がある3

これらの課題に対処する取り組みは、ドメイン内のデータセットアノテーションの作成4、およびドメイン適応トレーニングに焦点を合わせている。

NMTの具体的な課題は最近まで研究されなかった5。これらは、ソース文に単語内に自然ノイズまたは合成ノイズが含まれる場合の非自明な品質低下の経験的証拠を提供し、トレーニングデータにノイズを効率的に追加して堅牢性を向上させるデータ増大と敵対的アプローチを探っている。

MTNTの意義は、同時代のソーシャルメディアからのノイズの多い入力テキストに関連する幅広い現象を示す自然に発生するテキストで構成されるオープンテストセットを提供することにより、以前の研究と区別することにある。

まとめ

  • インターネット上の自然言語で発生するノイズの種類に対する堅牢性についてMTモデルをテストするための新しいデータセットがMTNT。
  • 英語・フランス語と英語・日本語の2つの言語ペア、およびこれら3つの言語の単一言語データの両方向の並列トレーニングとテストデータを提供している。
  • このデータセットには、既存のMTテストセットよりも多くのノイズが含まれており、標準のMTコーパスでトレーニングされたモデルに課題があることを示している。
  • これらの課題は、単純なドメイン適応アプローチだけでは克服できないことを示している。
  • MTNTは、MTのノイズに対する堅牢性の標準ベンチマークを提供し、この特定の問題に合わせたモデル、データセット、評価指標に関する研究を促進することを目的としている。

参考