ナード戦隊データマン

データサイエンスを用いて悪と戦うぞ

データサイエンスのために知っておきたい5つのpythonライブラリ

pythonはRとは違い、データ解析専用の言語ではないため、ライブラリを知っておく必要があります。ここでは、最低限知っておきたい5つのライブラリを列挙します。

numpy

numpyは数値計算を効率的に行うためのライブラリです。多次元配列に対する演算をサポートするため、Rのベクトルのような機能をもっています。sklearnのirisもnumpyで定義されています。

scipy

scipyはnumpyをベースに作られており、線形代数、最適化、統計などのより高度な処理をサポートしています。

pandas

Rにはデータフレームがありますが、pythonでデータフレームを使う場合はpandasを用います。データフレームに加え、欠損値処理やグルーピングをサポートしています。

matplotlib

グラフなど、視覚化のためのライブラリとしてmatplotlibが使えます。他にも視覚化のためのライブラリはありますが、matplotlibが最も一般的です。

scikit-learn

機械学習アルゴリズムを簡単に使う方法として、scikit-learnがあります。線形回帰、決定木、SVMニューラルネットワークなどあらゆるアルゴリズムをサポートしています。

参考

  1. activewizards.com