はじめてのHadoop
~分散データ処理の基本から実践まで

[表紙]はじめてのHadoop ~分散データ処理の基本から実践まで

紙版発売
電子版発売

A5判/608ページ

定価4,180円(本体3,800円+税10%)

ISBN 978-4-7741-5389-6

ただいま弊社在庫はございません。

電子版

→学校・法人一括購入ご検討の皆様へ

この本の概要

「いままで数千時間かっていた処理が,100分の1以下の時間で終わるようになった」

など,大量/多種のデータを効率よく処理できる手段として注目されているHadoopの仕組みと利用法をやさしく解説。最も現場で利用されているディストリビューション・CDHのバージョン3と,最新のHadoop2.0をベースにしたCDH4に対応,ポイントや注意点を丁寧にフォローしています。

序文はHadoopの生みの親,Doug Cutting氏。
これからHadoopを学びたい方に最適の1冊です。

こんな方におすすめ

  • 大規模データ処理に興味のある方

著者の一言

本書を手にされたあなたは「ビッグデータ」というフレーズをどのように捉え,解釈しているでしょうか。
企業システムで蓄積されるマスターデータやトランザクションデータ,逐次通信機器/スマートデバイス/スマートメータなどの高度化による各種ログ/センサーデータなどにより,企業内にはさまざまなデータが溢れ続けています。また,企業の外では複数のソーシャルネットワークなどからも大量のデータが生成され続けています。そのようななか,企業内に蓄積され続けるデータの山を分析し,ビジネスに活用して新しい収益に変える動きがあります。
膨大かつさまざまな種類のデータの山を積み上げているだけでは,新たな発見には至りません。しかし,これらの企業内/企業外の情報を結合して多角的に分析することで新しい気づきを求め,それをビジネスドライバーとして収益につなげる動きが一般企業でも活発化しつつあります。この多種多様なデータソースを総称して「ビッグデータ」と呼んでいます。
そして,これら「ビッグデータ」の分析の手段として注目されているソフトウェアがApache Hadoop(以降 Hadoop)です。Hadoopは,これまでのソフトウェアでは容易に実現できなかった数ペタバイト(約千兆バイト)にもおよぶ大量データ処理を,「コモディティマシン」と呼ばれる一般的なハードウェアをもちい,複数のマシンを並列に並べてクラスタを構成し,データを分散配置し,処理も分散することで実現できるようになりました。これまでの方法で処理すると,何十時間/何日もかかっていた大量データを,リーズナブルな時間で扱えることを意味しています。このようなこれまで実現が難しかった,大量データ処理技術をコアにして,これまでのビジネスに新しいイノベーションを起こすことができるようになります。
そのような力を秘めたHadoopですが,リレーショナルデータベースシステムを中心したトランザクションアプリケーションとは考え方やしくみが大きく異なります。とくにMapReduceアプリケーションで利用するデータ形式がどのようなものかを学ばなければ,Hadoopが実現できることの真価は理解できません。しかしこれは,リレーショナルデータベースをHadoopが置き換えることではありませんので,注意してください。
そこで本書では,Hadoopの基本をしっかり理解して習得していただけるように,インストールから活用まで,ステップバイステップでHadoopを動作させながら確認していく構成を採っています。ITアーキテクト/プログラマ/システムエンジニア,そしてユーザー企業の情報システム部の方々に読んでいただいてもわかりやすい解説を心がけました。
本書が最先端の分散コンピューティングソフトウェアであるHadoopの正しい理解とともに,ビジネスの変革にもお役に立てることを祈っています。

著者プロフィール

田澤孝之(たざわたかゆき)

中学生のとき,父の購入したNEC PC-9801Eを使い始め,BASIC,FORTRAN77でプログラミングを学ぶ。
1989年日立製作所入社。アセンブラ,Pascalを用いた国産分散OS開発が最初の仕事。1998年からはミドルウェアを中心に外資製品ベンダでおもにプリセールス業務に従事。BEAでTuxedoとWebLogicとともに成長し,fastでサーチを学ぶ。Red HatではJBoss事業の立ち上げと拡大に成功。その後Cloudera日本事業の立ち上げに貢献。現在は,日本オラクルに所属しエンタープライズアーキテクト本部 担当ディレクターとして,EAを軸にコンサルテーションを実施している。
趣味はツーリングと飼い猫2匹との会話。尊敬する人物は矢沢 永吉,本田 宗一郎,父。著書に『EJB 2.0徹底攻略』(技術評論社),『JSP標準タグライブラリ』(同),『エンタープライズサーチ 技術と導入』(アスキー・メディアワークス)などがある。


横井浩(よこいひろし)

NTTソフトウェア株式会社 技術開発センターに所属。
学生時代は画像系の研究室に所属。透過型HMD(ヘッドマウントディスプレイ)とGPSとノートPCを片手に,AR(のようなもの)をテーマとする研究に従事(今ならスマートフォンでできてしまいますが……)
2003年,新卒としてNTTソフトウェアに入社。入社時から,JavaEEやJavaMEなど,Javaをメインとする開発に携わっていた。2年ほど前,開発でHadoopを使うことになり,象本とともに深夜まで格闘する日々を経験。それがきっかけで,Hadoopのことをより知りたいと思うようになり,自己研鑽の一環として,書籍の執筆に参加することとなった。
ここ1,2年,カンファレンスなどで英語のセッションに参加するたびに,自分の英語のできなさに愕然とし,どうしたらいいものかと思いつつ,今日に至る。趣味は子供と遊ぶこと。


松井一比良(まついかずひら)

NTT ソフトウェア株式会社 メディア・ソリューション事業部に所属。
高校時代から「将来の夢はハッカーになること」という目標を持ち,ITの世界へ足を踏み入れる。
2001年にNTTソフトウェアに入社。入社以来,ECサイト,モバイルサイト,業務系Webアプリケーションの設計/開発に従事。Javaのフレームワークを用いた開発や,パッケージのカスタマイズなどを実施してきた。2010年からHadoopを使ったシステム開発に従事。Hadoopの魅力に惹かれ,カンファレンスに参加するなど,広く情報収集に努めている。また,Iaasを利用した開発を経験したことでインフラとしての便利さに惹かれ,個人的にプライベートクラウドを構築するなどしている。
趣味は愛犬(コーギー:アル)とディスクドッグをすること。「ディスクを追い抜く」という特技を身につけ,大会ではいつも惨敗。