これなら使える!ビッグデータ分析基盤のエコシステム

第4回 ビッグデータ分析基盤のためのアドホック分析環境 ~導入編

この記事を読むのに必要な時間:およそ 2 分

アドホック分析環境とは?

ビッグデータ分析におけるアドホック分析では,レポーティング分析で得られた気づきを元に具体的な根拠を得るために実施するケースと,ユーザが今までに無い条件を元に分析をするケースがあります。つまり,分析の当初はアドホック分析を行いながら,レポーティング分析に必要な基本KPIを見つけ出していくことが必要になります。

今回と次回で,JupyterとPandasを用いてアドホック分析環境を構築し,分析エンジンとして利用するMySQLに対してインタラクティブに集計と可視化を行うための準備をします。

JupyterとPandasとは?

Jupyterは,Webブラウザベースのインタラクティブシェルを提供するツールです。元々は,iPythonという名前で,Python用のWebブラウザのインタラクティブシェルを提供していました。そこから現在は進化し,Jupyterという名前でさまざまな言語に対応したWebブラウザベースのインタラクティブシェルとして公開されています。特徴として,Notebook(.ipynb形式)というファイルに実行したシェルの内容や画像を保存されるようになっており,簡単に分析内容を共有することができるようになっています。

Pandasは,Python用の表や時系列データを扱うのに長けたデータ解析支援のためのライブラリです。Pandasを用いることでさまざまなデータベースからデータを取得するだけでなく,Jupyter上で簡単にデータ解析を行えるようになります。

各種ツールのインストール

利用環境

  • Ubuntu 14.04
  • Python 3.4
  • Pandas (0.16.2)
  • Jupyter (Jupyterhub 0.2.0)

Python3のインストール

Ubuntu14.04ではPython3.4がデフォルトで入っていますが,エイリアスの設定などがデフォルトのままだと使いづらいため,pyenvを使って環境構築を行います。。

ライブラリのインストール

$ sudo apt-get update
$ sudo apt-get upgrade
$ sudo apt-get install git gcc g++ make openssl libssl-dev libbz2-dev libreadline-dev libsqlite3-dev python-dev libmysqlclient-dev

pyenvとPython3のインストール

$ cd /usr/local/
$ git clone git://github.com/yyuu/pyenv.git ./pyenv
$ mkdir -p ./pyenv/versions ./pyenv/shims
$ echo 'export PYENV_ROOT="/usr/local/pyenv"' | sudo tee -a /etc/profile.d/pyenv.sh
$ echo 'export PATH="${PYENV_ROOT}/shims:${PYENV_ROOT}/bin:${PATH}"' | sudo tee -a /etc/profile.d/pyenv.sh
$ source /etc/profile.d/pyenv.sh

$ sudo visudo
#Defaults       secure_path="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"
Defaults    env_keep += "PATH"
Defaults    env_keep += "PYENV_ROOT"

$ pyenv install -v 3.4.3
$ pyenv global 3.4.3
$ pyenv rehash

Pandasのインストール

$ pip install --upgrade pip
$ pip install pandas

Jupyterのインストール

$ apt-get install npm nodejs-legacy
$ npm install -g configurable-http-proxy
$ pip install zmq jsonschema

# 可視化用ライブラリ
$ apt-get build-dep python-matplotlib
$ pip install matplotlib
# MySQL接続用ライブラリ
$ pip install mysqlclient ipython-sql

$ pip install ipython[notebook] jupyterhub

$ passwd ubuntu

$ jupyterhub

※今回は複数のユーザの利用を想定してJupyterhubというマルチクライアント用のツールを使いました。しかし一人で利用するケースでは,JupyterhubではなくJupyterをローカルで利用する方が便利です。。

さて,これでJupyterが起動しました。下記のアドレスでログインをしてみましょう。

http://'IP address':8000/

図1 ログイン画面

図1 ログイン画面

ユーザの認証は,Ubuntuユーザでログインをすることができます。

図2 Top画面

図2 Top画面

著者プロフィール

高橋達(たかはしとおる)

Treasure Data Inc.でテクニカルサポートエンジニアとして,毎日,日米問わず顧客のサポートを担当。サポートエンジニアのエンジニアとしての地位向上を目指して色々模索中。そのために,秋葉原幻橙館で今日も元気にOSS活動を行っている。

URL:http://toru-takahashi.gitbooks.io/secret-ninja/content/

コメント

コメントの記入