レポート

Hadoopが変えるデータとヒトへのアプローチ ―「Hadoop Summit 2016 Tokyo」レポート

この記事を読むのに必要な時間:およそ 4 分

オンプレミスからクラウドへ ―Hadoopのこれまでとこれから

26日,27日ともにキーノートが行われ,初日はHadoopを中心とするデータ分析市場のトレンドとその中におけるHadoopの位置づけについて,そして2日目はHadoopおよびHortonworksの技術的進化の方向性について,それぞれ語られました。マーケティングメッセージとテクニカルメッセージに分けて発信されたという印象です。

データ分析市場の現在について,キーノートに登壇したHortonworks ストラテジ担当バイスプレジデント ショーン・コナリー(Shaun Connolly)氏はデータの巨大化が進行している一例として

  • 2020年までにデータ量は44ゼタバイトまで拡大(2012年は2.8ゼタバイト)
  • ビッグデータビジネスに投資するエンタープライズ企業は全体の64%
  • 管理されていないデータは全体の88%
  • 1ペタバイト以上のデータを扱うようになると想定している企業は31%

といういくつかの数字を示し,ビジネスにおけるデータの重要性が拡大していること,そして巨大化/多様化するデータをスケーラブルに格納するHadoopの存在感が高まっていることをあらためて強調しています。

Shaun Connolly氏

Shaun Connolly氏

とくに,ここ1,2年はエンタープライズ企業のクラウドへのデータ移行が急速に進んでいることを受け,"Hadoop-on-Cloud",クラウド上でのHadoopクラスタ稼働が増えることが予想されていますが,このトレンドについてコナリー氏は,Hortonworksの戦略として,⁠ヒストリカルデータのような"Data-at-Rest(動かないデータ)"とストリーミングデータのような"Data-in-Motion(流れるデータ)"をそれぞれ最適な場所に置き,自在に接続/連携させる"Connected"な環境を提供する」ことを挙げています。これはサンノゼのサミットにおいても語られていた内容であり,データセンター(オンプレミス)とクラウドの連携は,今後のHadoopビジネスでもっとも注目されるトレンドであることは間違いないでしょう。

"Data-at-Rest"と"Data-in-Motion"

Data-at-Rest

なおHortonwroksは,Apache Hadoopをベースにした「Hortonwroks Data Platform(HDP)⁠とデータフローオーケストレーションを実現するApache NiFiをベースにした「Hortonworks DataFlow(HDF)⁠でもって,静的なデータも動的なデータも場所を問わずに,かつシームレスに連携できることを強調しています。

一方,2日目のキーノートにはHortonwroks創業者のひとりであり,同社のチーフアーキテクトを務めるサンジェイ・ラディア(Sanjay Radia)氏が登壇,誕生から10年を迎えたHadoopが到達してきた技術的マイルストーンと,Hadoopの今後の開発方針について紹介がありました。

ラディア氏はまず「2006年に誕生したHadoopにとって,最大のイノベーションは2011年のYARN登場だった」と振り返っています。YARNがリソースマネジメントを引き受けたことにより,SparkなどMapReduce以外の実行エンジンの誕生につながり,⁠Hadoop=バッチ処理オンリー」というハードルを超えることができたからです。

また,Hadoopエコシステムのなかでもっとも人気の高いSQLデータウェアハウス環境のHiveについても,Apacheのトップレベルプロジェクトになった2010年以来,順調に成長を続けていると語り,オンプレミスだけでなくクラウドでの実績も増え,⁠300ペタバイト以上のデータを扱えるほどスケーラビリティに長けている」としています。2016年2月には待望のHive 2.0がリリース,高速化メカニズムのLLAP(Live Long and Process)を実装し,⁠Hive 1.xに比較して25倍以上のパフォーマンス」⁠ラディア氏)を実現しています。

Sanjay Radia氏

Sanjay Radia氏

いくつもの進化を遂げてきたHadoopですが,次のマイルストーンはどこに置いているのか。ラディア氏は「我々の"Hadoop Journey"の次の目標はクラウドへのシフトだ」と,前日のコナリー氏同様,クラウドというトレンドの重要性をあらためて強調しています。クラウド上にHadoopクラスタを構築するメリットとして,ラディア氏は

  • ITとビジネスにアジリティを与える
  • ハードウェアコストの上積みが必要ない
  • クラスタの寿命は一時的でも長期的でもOK
  • スケールに際限がない

といった点を挙げており,なかでも「作りたいと思ったときに一瞬でHadoopクラスタを構築できるのは非常に大きなメリット」としています。テンポラリでETLやデータ分析環境を用意するのにクラウドは非常に適しており,今後もそのビジネスニーズは拡大する傾向にあります。

一方でラディア氏は「クラスタをまたいでデータおよびメタデータをストレージ上でいかにシェアしていくかは大きなチャレンジ。データレイクとしてのHadoopをオンプレミスと同じように運用しようとするのは適切ではない。その他,セキュリティやガバナンス,オンデマンドで一時的ななワークロードへの対応,リソースの柔軟な割り当てなど,乗り越えるべき課題は多い」とも指摘します。

データ,メタデータのワークロードをまたいだシェアにおける課題

データ,メタデータのワークロードをまたいだシェアにおける課題

Hortonworksはここ数年,Microsoftとのパートナーシップを強化しており,クラウド分野でいえば,Microsoft Azureで提供されているHaoopマネージドサービス「HDInsight」はHDPをベースに構築されています。また,AWSやGoogle Cloudでのユースケースも増えつつあり,こうしたパブリッククラウドベンダとの協業で"Hadoop on Cloud"への知見が蓄積されつつあるようです。

キーノートではAWS上に2つのHadoopクラスタを用意し,マーケティングキャンペーンの分析環境を構築,BI(Apache Zeppelin)と連携し,リアルタイムに表示するというデモが披露されました。国内企業でこうしたHadoopの使い方をしているところはまだほとんどありませんが,ごく近い将来にはめずらしくない光景になっているのかもしれません。

著者プロフィール

五味明子(ごみあきこ)

IT系の出版社で編集者としてキャリアを積んだ後,2011年からフリーランスライターに。フィールドワークはオープンソースやクラウドコンピューティング,データアナリティクスなどエンタープライズITが中心。海外カンファレンス取材多め。Twitter(@g3akk)やFacebookで日々IT情報を発信中。

北海道札幌市出身/東京都立大学経済学部卒。

バックナンバー

2016年

バックナンバー一覧

コメント

コメントの記入