ナード戦隊データマン

機械学習, 自然言語処理, データサイエンスについてのブログ

2019-10-03から1日間の記事一覧

Webクロールで集めたパラレルコーパスをクリーニングする

パラレルコーパスフィルタリング1とは、ノイズのあるパラレルコーパスをクリーニングするタスクです。ParaCrawlプロジェクト2 のようにWebクロールしてパラレルコーパスを生成する手法では、間違った対応関係をもつ文ペアを保持することがあります。あるいは…