概要
「いままで数千時間かっていた処理が,100分の1以下の時間で終わるようになった」
など,大量/多種のデータを効率よく処理できる手段として注目されているHadoopの仕組みと利用法をやさしく解説。最も現場で利用されているディストリビューション・CDHのバージョン3と,最新のHadoop2.0をベースにしたCDH4に対応,ポイントや注意点を丁寧にフォローしています。
序文はHadoopの生みの親,Doug Cutting氏。
これからHadoopを学びたい方に最適の1冊です。
こんな方におすすめ
著者から一言
本書を手にされたあなたは「ビッグデータ」というフレーズをどのように捉え,解釈しているでしょうか。
企業システムで蓄積されるマスターデータやトランザクションデータ,逐次通信機器/スマートデバイス/スマートメータなどの高度化による各種ログ/センサーデータなどにより,企業内にはさまざまなデータが溢れ続けています。また,企業の外では複数のソーシャルネットワークなどからも大量のデータが生成され続けています。そのようななか,企業内に蓄積され続けるデータの山を分析し,ビジネスに活用して新しい収益に変える動きがあります。
膨大かつさまざまな種類のデータの山を積み上げているだけでは,新たな発見には至りません。しかし,これらの企業内/企業外の情報を結合して多角的に分析することで新しい気づきを求め,それをビジネスドライバーとして収益につなげる動きが一般企業でも活発化しつつあります。この多種多様なデータソースを総称して「ビッグデータ」と呼んでいます。
そして,これら「ビッグデータ」の分析の手段として注目されているソフトウェアがApache Hadoop(以降 Hadoop)です。Hadoopは,これまでのソフトウェアでは容易に実現できなかった数ペタバイト(約千兆バイト)にもおよぶ大量データ処理を,「コモディティマシン」と呼ばれる一般的なハードウェアをもちい,複数のマシンを並列に並べてクラスタを構成し,データを分散配置し,処理も分散することで実現できるようになりました。これまでの方法で処理すると,何十時間/何日もかかっていた大量データを,リーズナブルな時間で扱えることを意味しています。このようなこれまで実現が難しかった,大量データ処理技術をコアにして,これまでのビジネスに新しいイノベーションを起こすことができるようになります。
そのような力を秘めたHadoopですが,リレーショナルデータベースシステムを中心したトランザクションアプリケーションとは考え方やしくみが大きく異なります。とくにMapReduceアプリケーションで利用するデータ形式がどのようなものかを学ばなければ,Hadoopが実現できることの真価は理解できません。しかしこれは,リレーショナルデータベースをHadoopが置き換えることではありませんので,注意してください。
そこで本書では,Hadoopの基本をしっかり理解して習得していただけるように,インストールから活用まで,ステップバイステップでHadoopを動作させながら確認していく構成を採っています。ITアーキテクト/プログラマ/システムエンジニア,そしてユーザー企業の情報システム部の方々に読んでいただいてもわかりやすい解説を心がけました。
本書が最先端の分散コンピューティングソフトウェアであるHadoopの正しい理解とともに,ビジネスの変革にもお役に立てることを祈っています。