ナード戦隊データマン

機械学習, 自然言語処理, データサイエンスについてのブログ

2020-01-07から1日間の記事一覧

langstat_generatorの高速化

langstat_generatorとは、cc_netの手法に基づいてlangstat (各ドメインの各言語のテキストがどのぐらいあるかの統計) を生成する自作スクリプトです。slurm上で実行することが目標でしたが、いくつか高速化したため、高速化した点を書きます。 github.com 3…