レポート

日本よ,これが2014年のHadoopだ!─「Hadoop Conference Japan 2014」基調講演レポート

この記事を読むのに必要な時間:およそ 6 分

ユーザであっても“データ処理のトレンド”に無知では生き残れない

基調講演のトリを務めたのは前回のカンファレンスにも登壇したTreasure DataのCTOである太田一樹氏です。前回のカンファレンスから1年半が経過した現在,Treasure Dataはビジネスステージを一段アップさせ,国内企業の導入事例も多く発表しており,従業員数も50名を超え,もはやHadoopベンチャーというのがはばかられるほどに大きな成長を遂げました。

Treasure Data CTO 太田一樹氏

Treasure Data CTO 太田一樹氏

企業もソフトウェアも成功を目指すなら変化することは免れません。Treasure Dataが確実にステップアップしていったように,Hadoopもまた開発スタートから10年を迎え,世界でもトップクラスの規模を誇るオープンソースプロジェクトに成長しました。しかしその反面,エコシステムを含むプロジェクトが大きくなりすぎて「Hadoopとはなにか,という問いに簡単に答えることができなくなっている」と太田氏は指摘します。巨大化/複雑化してしまったHadoopプロジェクトをあらためて問い直し,Hadoopにおける価値と進化をあらためて見つめなおす"羅針盤"のようなキーノートになれば,という太田氏のプレゼンの内容は,羅針盤という言葉通り非常にわかりやすく示唆に富んだものでした。

まず太田氏が触れたのは「Hadoopをなぜ使うのか,本当にHadoopが最適な解なのか」という点です。現在,500以上のプロダクトが存在するというデータベースの世界にあって,なぜ人々はHadoopを使うのでしょうか。太田氏はこの問を何人かに投げかけてみたところ,もっとも多く返ってきた答えは「安いストレージとして使えるから」というものでした。たしかにオープンソースのHadoopであればコストを抑えながら大量のデータを格納しやすくなります。しかし太田氏は「いまはCephやGlusterFSなどストレージに特化したオープンソースプロダクト(いずれもRed Hatが買収済み)が存在しており,Hadoopの価値をストレージに置くのはどうか」と指摘します。

では太田氏が思うHadoopの価値とは何なのか。太田氏はこれを

Hadoop lets you collect and store any types of data economically, for faster and better use of data, to improve your products and mitigate business risks.

(Hadoopはユーザにどんなタイプのデータでも収集し,経済的にストアすることを可能にする。そのことはより速く,よりうまくデータを利用することにつながり,プロダクトを向上させ,ビジネスリスクを軽減するのに役立つ)

と英語で説明し,重要なキーワードとして「Collect any types of Data」⁠Store any types of Data Economically」⁠Faster use of Data」⁠Beter use of Data」の4つを挙げています。単にデータをストアするだけでなく,データの収集/経済的なストア/高速な利用/上手な利用を可能にするからこそ,Hadoopを使い意味があるというわけです。

「なぜ,Hadoopを使うのか? -2014年夏」これが正解だ!

「なぜ,Hadoopを使うのか? -2014年夏」これが正解だ!

そしてHadoopプロジェクトおよびエコシステムもこの4つのポイントに沿って進化していると太田氏は言います。たとえばデータを収集するツールにはTreasure Dataが中心となって開発しているFluentdや,Apache Kafka,Apache Flumeなど数多く存在します。また,データのストアにおいてもファイルフォーマットの進化がめざましく,経済的効率を高めるための支援ソリューション(管理支援ソフトウェア,PaaSやSaaSによるサービス提供)も最近では増えてきています。データを速く簡単に扱うという面においては「クラスタリソース管理やストリーム処理の分野,あるいはDAG型やインメモリといった分野がアツい」と太田氏。さらにYARNやApache TezやApache Sparkなど現在Hadoopプロジェクト全体をけん引する勢いがあるのもこの分野だといいます。そしてデータをうまく扱うためのしくみとしてはSQL-on-HadoopやImpala,Mahoutといったコンポーネントがあり,太田氏によれば「今回のカンファレンスでもっとも注目されている分野でセッションも数多く用意されている」とのこと。

一方でHadoop以外のデータベース,とりわけトラディショナルなRDBMSも着実に進化を遂げていることも忘れてはいけない事実です。⁠TeradataやNeteeza,Greenplumなどはシェアードナッシング型のMPP(Massively Parallel Processing)アーキテクチャを採用しており,これらはBI製品との親和性も高く,何よりSQLとしての完成度が非常に高い。複雑な処理も難なくこなせる。そしておもしろいのはこれらのプロプライエタリベンダが最近ではHadoop対応を強調していること」と太田氏が指摘する通り,こうしたRDBベンダはスクラッチから開発を行えば10年近くかかるようなクエリプランナーやオプティマイザを自前でもっているため,SQL-on-Hadoopなどに比べてもはるかに高速な処理が可能になります。スキーマを設計しなければならないという大きなディスアドバンテージはあるものの,最近ではJSONなどの準構造化データをストアできる機能を搭載したRDBも登場しており,そうした意味でHadoopとRDBMSの垣根は徐々に曖昧になりつつあると太田氏は説明します。

そしてデータをめぐるトレンドを知るには,Hadoopカンファレンスに参加すべし!

そしてデータをめぐるトレンドを知るには,Hadoopカンファレンスに参加すべし!

Hadoopおよびデータベースをめぐるこうした状況において,ではユーザサイドはどのような心づもりでデータおよびHadoop/データベースに向き合っていくべきなのでしょうか。太田氏は現在,データベースにおける最大の課題は「スキーマ管理によるビジネスの分断」だと指摘します。データを活用したいビジネスユーザはBI担当者に「こういうレポートが欲しい」とあれこれ注文をつけますが,BI担当者はビジネスのニーズを理解しているわけではないので,あくまでスキーマ設計に基づいた分析結果しか渡せません。場合によっては何日も何週間もかかることも起こり得ます。しかしHadoopのように生のデータをいかような形態でもストアできる環境,スキーマを意識することなくデータを扱える環境であれば,ビジネスユーザのリクエストを正確に反映したレポートを迅速に作成しやすくなります。⁠データを把握してビジネスをわかっている人が自分でレポートを作れるようになる,そういう時代が本当にやってきている。ここの流れに取り残されてしまうと,Hadoopをうまく使えないというより,データを使いこなせないという事態に陥ってしまう」と太田氏。データへの向き合い方を間違えるとビジネスの負け組になるという時代はもうすでに到来しているのかもしれません。

データの負け組=ビジネスの負け組にならないためには,⁠ユーザサイドが知識とトレンドをしっかり把握する必要がある」と太田氏は強調しますが,これは非常に重要なポイントだといえます。現状のトレンドは「Hadoopにすべてのデータを集約し,つねに書き込みが行われている状態を保つ。そしてそこから集計したデータをMPP型データベースに保存し分析を行う」というもので,たとえばTwitterにおけるHadoop + Vertica,EvernoteにおけるHadoop + ParAccell,PinterestにおけるHadoop + Redshiftなどが実装例になります。そして今後は,Hadoopは構造化データの領域に,逆にMPP型データベースは非構造化データの領域にそれぞれ踏み込む傾向が強くなっており,先にも触れたとおり,両者の境界線はますます曖昧になってきています。また,主要HadoopディストリビューションのベンダであるClouderaやHortonworksも市場の拡大を受け,ビジネスが大きく変化するときにきています。こうした混沌の時代だからこそ,データベースを使う側,ビジネスを行う側のユーザの態度が重要になります。現状の技術トレンドを積極的に取り込む姿勢をつづければ,自社が使うシステムに対し,⁠我々はなぜそれ(Hadoop)を使うのか」という問に答えつづけていくことができるのではないでしょうか。


Hadoopの世界を代表する3人のエキスパートによるキーノートは,2時間弱という短い時間ながらも,Hadoopプロジェクトの根幹となるフィロソフィーと現在のトレンドをうまくバランスさせた非常に充実した内容でした。自分はなぜHadoopにかかわるのか,なぜHadoopでなければいけないのか,いまHadoopで何をしたいのか ─Hadoopユーザのひとりひとりが自問自答することで,日本のHadoop利用シーンはまた大きく成長していくように思えます。

[フォトレポート]世界よ!これが日本のHadoopカンファレンスだ!

登壇者は皆障子の向こうからシルエットになり登場する演出。太田さん曰く「かなり恥ずかしいです」

登壇者は皆障子の向こうからシルエットになり登場する演出。太田さん曰く「かなり恥ずかしいです」

…のはずが,ダグ・カッティングさんはあまりの長身のためアタマが…

…のはずが,ダグ・カッティングさんはあまりの長身のためアタマが…

一見,不気味?に見えるHadoopのマスコットの象さんも,日本のクリエイターにかかればこの通り

一見,不気味?に見えるHadoopのマスコットの象さんも,日本のクリエイターにかかればこの通り 一見,不気味?に見えるHadoopのマスコットの象さんも,日本のクリエイターにかかればこの通り

前回好評だった豪華お弁当(無料サービス)は今回ももちろんご提供。豪華です!

前回好評だった豪華お弁当(無料サービス)は今回ももちろんご提供。豪華です! 前回好評だった豪華お弁当(無料サービス)は今回ももちろんご提供。豪華です!

著者プロフィール

五味明子(ごみあきこ)

IT系の出版社で編集者としてキャリアを積んだ後,2011年からフリーランスライターに。フィールドワークはオープンソースやクラウドコンピューティング,データアナリティクスなどエンタープライズITが中心。海外カンファレンス取材多め。Twitter(@g3akk)やFacebookで日々IT情報を発信中。

北海道札幌市出身/東京都立大学経済学部卒。

コメント

コメントの記入