ナード戦隊データマン

機械学習, 自然言語処理, データサイエンスについてのブログ

2019-12-02から1日間の記事一覧

bitextorで使うlangstatsを生成する方法

langstatsでは、各ドメインに対する各々の言語のドキュメント量を定義します。langstatsをbitextorに渡せば、スレッショルドを指定して候補ドメインを制限することができます。このlangstatsを生成する方法があったので書きます。 paracrawl/extractor 使い…