はじめてのHadoop
~分散データ処理の基本から実践まで
~分散データ処理の基本から実践まで
2012年11月27日紙版発売
2012年11月27日電子版発売
田澤孝之,横井浩,松井一比良 著
A5判/608ページ
定価4,180円(本体3,800円+税10%)
ISBN 978-4-7741-5389-6
ただいま弊社在庫はございません。
書籍の概要
この本の概要
「いままで数千時間かっていた処理が,100分の1以下の時間で終わるようになった」
など,大量/多種のデータを効率よく処理できる手段として注目されているHadoopの仕組みと利用法をやさしく解説。最も現場で利用されているディストリビューション・CDHのバージョン3と,最新のHadoop2.0をベースにしたCDH4に対応,ポイントや注意点を丁寧にフォローしています。
序文はHadoopの生みの親,Doug Cutting氏。
これからHadoopを学びたい方に最適の1冊です。
こんな方におすすめ
- 大規模データ処理に興味のある方
著者の一言
本書を手にされたあなたは「ビッグデータ」というフレーズをどのように捉え,解釈しているでしょうか。
企業システムで蓄積されるマスターデータやトランザクションデータ,逐次通信機器/スマートデバイス/スマートメータなどの高度化による各種ログ/センサーデータなどにより,企業内にはさまざまなデータが溢れ続けています。また,企業の外では複数のソーシャルネットワークなどからも大量のデータが生成され続けています。そのようななか,企業内に蓄積され続けるデータの山を分析し,ビジネスに活用して新しい収益に変える動きがあります。
膨大かつさまざまな種類のデータの山を積み上げているだけでは,新たな発見には至りません。しかし,これらの企業内/企業外の情報を結合して多角的に分析することで新しい気づきを求め,それをビジネスドライバーとして収益につなげる動きが一般企業でも活発化しつつあります。この多種多様なデータソースを総称して「ビッグデータ」と呼んでいます。
そして,これら「ビッグデータ」の分析の手段として注目されているソフトウェアがApache Hadoop(以降 Hadoop)です。Hadoopは,これまでのソフトウェアでは容易に実現できなかった数ペタバイト(約千兆バイト)にもおよぶ大量データ処理を,「コモディティマシン」と呼ばれる一般的なハードウェアをもちい,複数のマシンを並列に並べてクラスタを構成し,データを分散配置し,処理も分散することで実現できるようになりました。これまでの方法で処理すると,何十時間/何日もかかっていた大量データを,リーズナブルな時間で扱えることを意味しています。このようなこれまで実現が難しかった,大量データ処理技術をコアにして,これまでのビジネスに新しいイノベーションを起こすことができるようになります。
そのような力を秘めたHadoopですが,リレーショナルデータベースシステムを中心したトランザクションアプリケーションとは考え方やしくみが大きく異なります。とくにMapReduceアプリケーションで利用するデータ形式がどのようなものかを学ばなければ,Hadoopが実現できることの真価は理解できません。しかしこれは,リレーショナルデータベースをHadoopが置き換えることではありませんので,注意してください。
そこで本書では,Hadoopの基本をしっかり理解して習得していただけるように,インストールから活用まで,ステップバイステップでHadoopを動作させながら確認していく構成を採っています。ITアーキテクト/プログラマ/システムエンジニア,そしてユーザー企業の情報システム部の方々に読んでいただいてもわかりやすい解説を心がけました。
本書が最先端の分散コンピューティングソフトウェアであるHadoopの正しい理解とともに,ビジネスの変革にもお役に立てることを祈っています。
この本に関連する書籍
-
[改訂第3版]Apache Solr入門 ―オープンソース全文検索エンジン
今回で3回目の改訂となるApache Solrの解説書です。Solrはオープンソースの検索エンジンソフトウェアです。多くの企業で使用され,検索を利用したさまざまなサービスを...
-
データベースの限界性能を引き出す技術 ~NoSQLに飛びつく前に知っておきたい原理と最新テクニック
「RDBMSだと大規模データをうまく扱えない」といわれ,NoSQLのような代替技術が生まれてきていますが,本当でしょうか? ビッグデータ時代でもシステムの中核として...
-
VMwareの基本 ~仮想化のための設計・構築・運用のポイントがわかる
クラウド時代にはもはや欠かせない仮想化技術のトップシェアを誇るVMwareのいちばんやさしい入門書。 VMware社のエンジニアが,設計・構築・運用まで,現場で考えるべ...
-
即戦力のOracle管理術 ~仕組みからわかる効率的管理のノウハウ
「なぜ,その操作が必要なのか?」 「こういう仕組みになっているからこうする」 という背景をきちんと押さえながら,Oracleを効率的に管理するための考え方やテクニ...
-
明日からつかえるシンプル統計学 ~身近な事例でするする身につく最低限の知識とコツ
「カスタードケーキがチョコパイに勝つには『味の改良』『販促キャンペーンの強化』どちらが有効か?」 「あと500人お客さんを呼び込むにはいくら広告費が必要?」 ...
-
MySQL Cluster構築・運用バイブル ~仕組みからわかる基礎と実践のノウハウ
MySQLのストレージエンジンとして動作し,スケールアウトや高可用性のニーズに応えてくれるのがMySQL Cluster。RDBMSとNoSQL両方のインターフェイスを持つ「NewSQL」の...