データナード

機械学習と自然言語処理についての備忘録 (旧ナード戦隊データマン)

2020-01-14から1日間の記事一覧

slurm上でlangstat_generatorを実行

langstatは、各言語のデータが各ドメインにどのくらいあるのかを表す統計ですが、これを生成するためにlangstat_generatorというものを作っております。CommonCrawlは膨大なデータがある上に、cc_netと同様の方法で生成するという要件があったため、slurm上…