ナード戦隊データマン

データサイエンスを用いて悪と戦うぞ

データサイエンスではデータの何を理解するべきか

そもそも、データサイエンスでは、問題に対して情報をデータ化する必要があります。多くの場合、データは企業が保有するデータベースから取り出すことになりますが、データを用いてモデルを作成する前に、データに対する理解が重要になります。

目的変数/予測変数

データには予測したい値と予測に使う値があります。予測したい値は目的変数と呼ばれます。それに対し、予測に使う値は予測変数と呼ばれます。予測変数は入力となり、目的変数はラベルとなります。

データ型

大きく分けて、データは以下の種類があります。

  • 名義データ
  • フラグデータ
  • 順序データ
  • 数値データ

例えば、性別は名義データに分類され、住宅価格は数値データになります。モデルを作成する際に、データ型を正しく定義することにより、精度が上がることがあります。

欠損値

データが欠損値を持っている場合、以下のような保管方法を検討する必要があります。

  • 欠損値を持つ行の除外
  • 平均・中央値による補完
  • 予測による補完
  • アルゴリズムによる補完

欠損値を持つデータに対して機械学習アルゴリズムを適用すると、結果がnullになってしまう場合があるので、適切な方法で欠損値を処理する必要があります。

フィールドの重要度

フィールドは属性や特徴量とも呼びます。フィールドの数が多い場合、重要度の高いフィールドに厳選します。通常、相関の強さや係数の大きさによって重要度を決定します。利用するフィールドを選ぶ行為はスクリーニングと呼ばれます。

誤差

完全に正確な測定は存在しないので、データは通常、誤差を持っています。 誤差には以下の種類があります。

  • 偶然誤差
  • 系統誤差

偶然誤差は、正しい値とは無関係で、他の誤差とは独立しているような偶然の誤差です。明確なパターンを持っていません。

それに対し、系統誤差は明確なパターンを持ちます。偶然ではなく、原因を特定可能です。往々にして社会心理学におけるバイアスが関わっています。

系統誤差を発生させる要因の一つが測定のバイアスです。以下のような種類があります。

  • 標本の選択・保持に関するバイアス
  • 情報の収集・記録に関するバイアス

例えば、アンケートは基本的に志願者バイアスの影響を受けます。これは標本の選択に関するバイアスです。この種のバイアスから生まれる系統誤差は、原因が特定できる場合が多く、原因が特定されれば取り除くことができます。

探索的データ分析(EDA)

データに関するヒストグラム、性別あるいは年齢で色分けされた散布図、外れ値など、データに関して視覚的理解などを得たい場合、EDAを行います。

いきなりモデルを作成するのではなく、EDAによってデータの理解を深めてからモデルを作成したほうが良いでしょう。

参考

  1. Statistics in a Nutshell: A Desktop Quick Reference by Sarah Boslaugh
  2. Introduction to Modeling - IBM SPSS Modeler tutorial