エンタープライズビジネスを加速させるHadoop

第1回 Hadoopで広がるビジネス領域

この記事を読むのに必要な時間:およそ 3 分

はじめに

近年,⁠Hadoop」というキーワードをよく目にします。もしかしたらこの記事を読んでいるあなたも,Hadoopというキーワードを目にしたり聞いたりしたことがあり,興味を持ってこの記事をご覧になっているのかもしれません。Hadoopとは何でしょうか?何ができるのでしょうか?今回から全5回にかけて,Hadoopの活用事例や活用のヒント,そしてこれからHadoopを活用しようと考えているエンジニアが知っておくべきことや,情報収集の仕方を解説します。

Hadoopって何?

Hadoopとは何でしょうか。簡単に言うと,テラバイト,ペタバイトといった巨大なデータを処理するためのオープンソースの分散処理基盤で,Googleが検索エンジンのバックエンドに利用している技術のクローンです。Googleは2003年に大規模分散ファイルシステム「Google File System(GFS)⁠についての論文※1を,2004年に大規模分散プログラミングモデル「MapReduce」についての論文※2をそれぞれ発表しました。

Hadoopは,これらの内容をもとに,2005年に,当時Yahoo! Inc.のエンジニアであったDoug Cutting氏によって開発がすすめられたプロダクトで,GFSに相当する「Hadoop Distributed File System(HDFS)⁠と,MapReduceに基づいた大規模分散処理フレームワーク「Hadoop MapReduce(以下MapReduce)⁠からなります。

Hadoopは現在,Apache Software Foundationがメンテナンスしています。HDFS,MapReduceともに1台のマスターサーバと複数台のクラスタで構成されており,部分的な故障に強いという特徴や,サーバを追加しただけで簡単に格納容量や性能がスケールアウトしやすいという特徴があります。これらの特徴を裏付けるアーキテクチャや,MapReduceの処理フローなどの詳細については,詳しい書籍やサイトが充実しているので,そちらをご覧ください。

 Apache Hadoop公式サイト

図 Apache Hadoop公式サイト

※1)
The Google File System
※2)
MapReduce: Simplified Data Processing on Large Clusters

Hadoopは新しい領域のビジネスを可能にする

Hadoopの最大の特徴は,巨大なデータを高速にバッチ処理可能であるということです。このような特徴を聞くと,Hadoopの用途は従来のバッチ処理の置き換えを想像するかもしれませんが,それだけではありません。Hadoopの本質は従来扱うことができなかった巨大なデータが処理可能なことであり,新しい領域のビジネスを可能にするのです。大量のデータはまさにビジネスチャンスの宝の山です。しかし従来は大量のデータを採取することは可能でも,蓄積しておくこことは難しいという課題があり,そのようなデータはやむを得ず捨てていました。しかしHadoopを活用すれば巨大なデータを蓄積しておくことが可能で,しかも高速に処理することができます。

さて,Hadoopは新しい領域のビジネスを可能にすると述べましたが,どのように活用されているのでしょうか。第1回は広く知られている例をもとに,Hadoopがどのようなシーンで活用できるのか見てまいります。

New York Times社の事例

New York Times社は,全米3位の発行部数を誇る日刊紙『The New York Times』を発行する新聞社です。同社は過去の掲載記事をPDFファイル形式でユーザに提供するサービスを展開しています。サービスを始めるに当たり,同社では約130年にさかのぼる過去の記事をいかに効率よくPDFファイルに変換するかが課題でした。対象の記事はおよそ1,100万本で,TIFF形式でスキャンした画像はおよそ4テラバイトにも上りました。

彼らはこの課題に対してHadoopを活用することで,解決の糸口を見出しました。Amazon Web Services LLCが展開するIaaS「Amazon EC2※3)⁠を利用して100ノードから成るHadoopクラスタを構築し,4テラバイトの画像データを,たったの24時間で約1.5テラバイトのPDFデータに変換することができたのです。この間の作業にかかった費用もわずか240ドルでした。Hadoopを活用することで,大量のデータのバッチ処理を驚くべき低コストで実現することができました。

さらに同社は,読者のWeb閲覧履歴ログを収集・分析にHadoopを活用しています。EC2上に構築した20台のサーバから成るHadoopクラスタを利用して,12テラバイトにも及ぶデータを処理し,クッキー追跡を利用して同社のサイトを訪問したユニークビジター数,総PV,ユーザ当たりのPVを集計しています。この集計結果を利用し,年齢層別の統計データや,記事別データと組み合わせ分析を行っており,どのようなユーザがどのような記事に関心を持ったかについて調査をしていると発表しています。大量の画像データをPDFに変換するという典型的なバッチ処理への適用からHadoopの活用が始まったNew York Timesは,今やその力をマーケティングにも活用しているのです。

※3)
Amazon Elastic Compute Cloud。Amazon Web Services LLCが展開するIaaS。

著者プロフィール

猿田浩輔(さるたこうすけ)

株式会社NTTデータ基盤システム事業本部に所属。
入社以来HadoopをはじめとするOSSの導入支援や技術検証および技術開発に従事。これまでに数百台規模のHadoopクラスタを構築する他,MapReduceアプリケーションの設計/開発支援なども実施。
社内外でHadoopの普及活動を行っており,2011年1月にPFIの太田一樹氏やNTTデータの濱野賢一朗氏らとともに『Hadoop徹底入門』を出版。
http://oss.nttdata.co.jp/hadoop/

コメント

  • Hadoop

    クラウドを構築するためのミドルウェアに必要なものとして
    Hadoopの他に何がありますか?
    現行はアプリ当社製”中小企業向ERP”を業務単位で
    SaaS配信する為、Javaでの入力画面を所持致して居ます。

    Commented : #1  玉置  達明  (2011/07/07, 16:11)

コメントの記入