ナード戦隊データマン

機械学習と自然言語処理についてのブログ

2017-09-18から1日間の記事一覧

tf-idfでテキストデータをスケール変換し映画レビューを分類する

映画レビューのようなテキストデータは、テキストの中の単語(トークン)を抽出し、さらにtheやaのような役に立たない単語を除外してボキャブラリを構築し、トークンの頻度をカウントして利用しなければなりません。ここでは、sklearnでそれらを簡単に行う方…