家庭に電気が普及したときのように、Hadoopでビジネスは一変する─「Hadoop Summit 2015」基調講演レポート

Hadoopはいまや"データオペレーティングシステム(data opereating system)"というべき存在だ─6月9日(米国時間⁠⁠、米サンノゼで開催された「Hadoop Summit 2015」⁠6/9~11)のオープニングキーノートに登壇したHortonworksの共同創業者であるアルン・マーシー(Arun Murthy)氏は、世界中から集まった約4,000名の参加者を前にこう発言しました。膨大な量のデータを低コストで並列分散処理できるプラットフォームとして、ここ数年におけるビッグデータブームを支えてきたHadoopですが、機械学習やIoT(Internet of Things)といった新たなトレンドが加わったこともあり、Hadoopに期待される役割もまた変化のときを迎えているようです。本稿ではこのオープニングキーノートの内容をもとに、マーシー氏の言うところの"データオペレーティングシステム"としてのHadoopが向かおうとしている進化の方向性を探ってみたいと思います。

オープニングキーノートの壇上に立つHortonworks創業者アルン・マーシー氏
オープニングキーノートの壇上に立つHortonworks創業者アルン・マーシー氏

拡大が続く「Hadoopエコシステム」

Hadoop SummitはHadoopディストリビュータのHortonworksとYahoo!がホストとなってここサンノゼで開催するユーザカンファレンスで、今回で8回目の開催となります。Microsoft、IBM、Cisco、SAP、Teradataなど、およそビッグデータビジネスに関わっている大手IT企業のほとんどがスポンサーとして協賛しており、Hortonworksにとっては競合企業となるClouderaやMapRといったHadoopディストリビュータ各社も参加、業界挙げての一大イベントという雰囲気を強く感じさせます。冒頭でも触れたとおり、今回のHadoop Summit 2015の参加者は前年比30%増の4,000名を超える参加者が集結、過去最大規模の開催となりました。

8回目となったHadoop Summit 2015には過去最高となる4000名が参加した
8回目となったHadoop Summit 2015には過去最高となる4000名が参加した

回を重ねるたびに増えてきたのはカンファレンスの参加者だけではありません。Hadoop自身が改善され続けてきたことはもちろんのこと、ここ数年でいわゆる"Hadoopエコシステム"といわれる周辺プロダクトの数が大幅に増えました。SQLによるデータウェアハウジングを可能にする「Hive⁠⁠、HDFS上で稼働する列指向型NoSQLデータベースの「HBase⁠⁠、そしてMapReduceを置き換える存在として急激に注目度が高まっている高速分散処理フレームワークの「Spark」などはその最たる例でしょう。

これらのプロダクトが登場してきた背景には、Hadoop上での分析をより速く、正確に、そして簡単に行いたいというユーザからのニーズが存在します。そしてApache 2.0から実装されたあらゆる分散処理フレームワークをサポートする「YARN」が、"Hadoop=バッチ処理基盤"という常識を大きく変えました。少し前までは「Hadoopは大量データのバッチ処理のためのシステムであり、リアルタイム処理には向かない。MapReduceは関数型プログラミングの技術が求められるため、習得は難しい」と言われることも少なくなかったのですが、Apache Hadoopとともに成長を続けるHadoopエコシステムの存在はそれらを過去の常識にしつつあります。

Hadoopがもたらす「トランスフォーメーション」

3日間のカンファレンスを通してキーノートのホストを務めたHortonworksのプレジデントであるハーブ・クーニッツ(Herb Cunitz)氏は、Hadoopの成長、とくにエンタープライズにおける急激な普及について、Hadoopがビジネスに"トランスフォーメーション(transformation)"をもたらすプラットフォームとして認識されてきていると指摘しています。transformationという単語は「転換/変換」と訳されることが多いのですが、changeよりも劇的な変化を意味しており、まったく異質な形態へと進化するさまを表しています。たとえて言えばサナギがチョウへと成長するように、Hadoopによってあらゆる業界がこれまでの常識とはまったく異なるビジネスのフェーズに突入しているという意味だと思われます。

3日間に渡ってホストを務めたHortonworksのハーブ・クーニッツ氏
3日間に渡ってホストを務めたHortonworksのハーブ・クーニッツ氏

より正確にいえば、Hadoopによるデータ分析がビジネスに"トランスフォーメーション"となる大きな転換を迫っていると表現できます。冒頭で紹介した"データオペレーティングシステム"のコンセプトについて語ったマーシー氏は「現在はリソースとして価値があるのはハードウェアではなくデータ」と強調、そのデータ分析を速く正確に行える企業こそがトランスフォーメーションに成功できるとしています。しかもそのデータ分析は単なるバッチ処理ではなく、現在では「リアルタイムかつプレディクティブが主流」⁠マーシー氏)とのこと。絶え間なく流れてくるストリームデータをリアルタイムに分析し、それをもとに直近の未来を予測するというニーズは、昨今のIoTや機械学習のブームとも深く結びついており、すでに特定の業界の特定の企業だけに求められるニーズではなくなってきているとマーシー氏は言います。

その一例としてマーシー氏が紹介したのは、商品を配送するドライバーをリアルタイムに管理し、事故の確率を予測するアプリケーションのデモです。大量の商品を配送する場合、これまでは一定の確率で事故が発生するのは仕方がないことと見られてきましたが、現在では企業が安全性の向上のためにより努力することが求められています。危険なドライバーを事前に把握できれば事故の発生を大幅に減らすことも可能になります。ではそんなアプリはどうやって構築すればよいのでしょうか。要件は以下になります。

  • 気象データとドライバーのプロファイルをひもづけた視覚的にわかりやすいアプリケーション
  • 予測モデルのためのデータ探索
  • 予測モデルを学習し生成(機械学習)
  • リアルタイムに危険なドライバーを把握するために予測モデルをアプリケーションに組み込む

この要件に対しHadoopエコシステムはどう応えることができるのでしょうか。ドライバーのトラッキングデータはHDFSにストアされ、その上のYARN上にHive(SQL⁠⁠、Spark(機械学習⁠⁠、Storm(ストリームデータ処理⁠⁠、HBase(NoSQL)の各アプリケーションが構築されます。トラッキングデータはトラックに取り付けられたセンサーからKafkaによってキューイングされてStormに渡され、Stormと連携した各アプリがアグリゲーションを実行し、生成された予測モデルにしたがって危険なドライバーをリアルタイムにはじき出していました。なお、デモではインタラクティブな表示を行うツール「Apache Zeppelin」が使われていました。

Hadoopエコシステムで構築されたリアルタイムな事故予測アプリケーションの構成
Hadoopエコシステムで構築されたリアルタイムな事故予測アプリケーションの構成
Zeppelin上に表示されたドライバーのトラッキング状況。気象状況とセンサーのデータを照合し、危険なドライバーの現在位置と危険度をリアルタイムで表示(赤は特に危険⁠⁠、アラートを出すことも可能
Zeppelin上に表示されたドライバーのトラッキング状況。気象状況とセンサーのデータを照合し、危険なドライバーの現在位置と危険度をリアルタイムで表示(赤は特に危険)、アラートを出すことも可能

このデモでマーシー氏が強調したかったことは、先にも触れたとおり、こうしたリアルタイムなデータ分析を必要とするのは、特別な企業に限らないという点です。そして、コストや拡張性、可用性、信頼性、多様性などを考慮すれば、現時点で「データオペレーティングシステムとして存在できるのはHadoop以外にありえない」というマーシー氏の言葉は決して誇張ではないといえます。

エンタープライズに拡がるHadoop

マーシー氏の言うところの"データオペレーティングシステム"の地位をHadoopが勝ち得た理由のもうひとつにエンタープライズでのアダプションが拡がったことが挙げられます。Hadoop Summit 2015には、多くのユーザ企業がキーノートに登壇したりセッションで事例を発表していましたが、その中にはDisneyやGE、Schlumberger、Mayo Clinicなどの世界的大企業の名前も含まれています。現在、IoTに積極的にフォーカスしているGE SoftwareからはCIOのビンス・キャンピシ(Vince Campisi)氏がキーノートに登壇し、⁠Hadoopは製造業のデータ分析基盤として非常にマッチする存在。"Big Iron Meets Big Data"を実現してくれた」とHadoopを高く評価しています。

Hortonwoks CEOのロブ・ビアデン氏
Hortonwoks CEOのロブ・ビアデン氏

オープニングキーノートに登壇したHortonwoksのCEOであるロブ・ビアデン(Rob Bearden)氏はエンタープライズにおけるHadoopのアダプションを示すスライドを紹介、⁠7%の企業が24ヵ月以内に投資したいと考えており、11%は12ヵ月以内、そして26%はすでにアダプションまたはテスト段階に入っている」としており、さらにアダプション済みの企業のシェアは25%に達しているという数字を示しています。Hadoopの導入を進めたことでトランスフォーメーションに成功し、市場競争力を手にしたということでしょうか。

エンタープライズにおけるHadoopアダプションの現状
エンタープライズにおけるHadoopアダプションの現状

「Hadoopの現状は、一般家庭に電気が普及したころに似ている。電気で生活が一変したように、Hadoopでビジネスは変わる。これがトランスフォーメーションだ」とビアデン氏。UberやAirbnbといったまったく新しいタイプの企業がデータ分析によって頭角をあらわしてきたように、Hadoopをデータオペレーティングシステムとして活用し、リアルタイムかつプレディクティブなデータ分析に成功した企業がある日突然、世の中に登場してくることもこれからはめずらしくなくなるでしょう。そしてそうした新しい企業のビジネスモデルがクラシックな企業やエンタープライズを刺激し、世界はトランスフォーメーションを遂げていくのかもしれません。

おすすめ記事

記事・ニュース一覧