ビッグデータを使って統計分析がしたい！【準備編】

#Python

記事をシェア：

コピー

こんにちわ。井上です。

現在開発しているシステムではビッグデータを扱っています。
そのデータを統計分析することで、未来のデータを予測したいと考えています。
そのためにはどのような言語を使って、どうやって処理していけばいいのか検討もつきません。
そこで今回は、どのようにすればシステムでビッグデータを利用して、統計分析できるのかを模索していこうと思います。

そもそもビッグデータとは

特に決まった定義がないようなので、今回は以下の２つを定義とします。

事業に役立つ知見を導出するためのデータ

－総務省　制作白書平成24年度版

市販されているデータベース管理ツールや従来のデータ処理アプリケーションで処理することが困難なほど巨大で複雑なデータ集合の集積物を表す用語

－wikipedia「ビッグデータ」

どちらにもいえることは、データ数が何件以上とか、何GB以上などのデータとしての大きさは決まりがないようです。
今あるデータを活用して未来に役立てようということで進めていきたいと思います。

統計分析ができるプログラム言語

統計分析で調べると、以下の２つが候補として上がりました。

R言語

R言語は、オープンソース・フリーソフトウェアの統計解析向けのプログラミング言語及びその開発環境である

－wikipedia「R言語」

R言語は汎用のプログラミング言語とは異なり、統計解析やデータ解析に特化している言語となります。
自分の知っているプログラミングとは少し違うようで、ちょっと癖がありそうです。

Python

汎用のプログラミング言語として設計されており、標準ライブラリやサードパーティ製のライブラリも充実している。

そのためPythonはWebアプリケーションやデスクトップアプリケーションなどの開発はもとより、システム用のスクリプトや、

各種の自動処理、理工学や統計解析のためのツールとしてなど、幅広い領域で使用されている。

－wikipedia「Python」

Pythonはいたって普通の汎用的なプログラミング言語ですが、数値計算や統計処理をするライブラリがあるのでデータ処理をするのに有効です。
プログラムを書く際のルールが厳格に定義されているので、誰が書いてもほぼ同じになるという特徴があります。

いろいろと考えた結果、今回はPythonを使ってデータ処理をしていきたいと思います。
（PythonのディストリビューションであるAnacondaを使用します。AnacondaはPython本体にデータ分析や科学計算などのライブラリが一緒になったものです）