ナード戦隊データマン

機械学習, 自然言語処理, データサイエンスについてのブログ

2019-12-12から1日間の記事一覧

CCNetとCCMatrixについて

CCNetとは、言語を識別しながらCommon Crawlからモノリンガルコーパスを生成するFacebook Researchのツールです。一方、CCMatrixは「CCNetによって生成されたコーパスからパラレルセンテンスを抽出する」というタスクに対する一つの手法です。 概要 CCMatrix…