ナード戦隊データマン

データサイエンスを用いて悪と戦うぞ

2018-11-16から1日間の記事一覧

poem_detector: Qiitaのクズ記事を判定する機械学習モデル

記事の良し悪しを判定するのは、文書分類の典型的なタスクです。イイネが記事の良し悪しを意味しないなら、アノテーション基準を制定する方法でモデルを構築すればそれなりのものができそうなので、試してみましょう。 パイプライン 良い記事と悪い記事の基…

BERT苦行録2 - sentencepieceを使って事前訓練

BERTを用いて日本語ツイートの感情分析を試すという記事では、BERTについてファインチューニングと事前訓練を行いました。今回は事前訓練を行う上での注意点を書きます。 1. 語彙数とトーカナイザの問題 MeCabのボキャブラリにあわせてBERTを訓練をしようと…