ナード戦隊データマン

データサイエンスを用いて悪と戦うぞ

2017-09-18から1日間の記事一覧

tf-idfでテキストデータをスケール変換し映画レビューを分類する

映画レビューのようなテキストデータは、テキストの中の単語(トークン)を抽出し、さらにtheやaのような役に立たない単語を除外してボキャブラリを構築し、トークンの頻度をカウントして利用しなければなりません。ここでは、sklearnでそれらを簡単に行う方…