レポート

10周年を迎えたHadoop,データ分析の主戦場はクラウドとデータセンターの連携に ―「Hadoop Summit 2016 San Jose」レポート

この記事を読むのに必要な時間:およそ 3.5 分

6月28日~30日(米国時間)の3日間に渡って米サンノゼで開催された「Hadoop Summit 2016 San Jose」には,世界36ヵ国から約4000名が参加し,Hadoop誕生から10周年を迎えたアニバーサリーイヤーにふさわしい盛況を見せていました。Hadoopのユーザや開発者,そしてHadoopビジネスを展開する企業が世界中から集まる現場に居合わせると,あらためてHadoopがデータ分析プラットフォームのデファクトスタンダードとして,確固たる地位を獲得したことを強く実感させられます。

筆者は昨年も本カンファレンスに参加しましたが,変化のスピードが速いIT業界を象徴するかのように,昨年にはなかったいくつかのトレンドがHadoop周辺で起こっていることを感じました。本稿では3日間の取材を通して見えてきた,Hadoopおよびデータ分析ビジネスに起こりつつある兆候について検証してみたいと思います。

Hadoop Summit 2016 San Joseの会場となったサンノゼコンベンションセンター

Hadoop Summit 2016 San Joseの会場となったサンノゼコンベンションセンター

Elephant in the Cloud ―クラウドへのHadoopデプロイと連携が本格化

Hadoop SummitはHadoopディストリビュータのHortonworksがYahoo!とともに世界各地で主催するイベントですが,もっとも規模が大きく,話題性が高いのがここサンノゼでのカンファレンスです。なお,2016年10月には東京ではじめてのHadoop Summitが開催されることが決定しています。

開催期間の3日間に渡ってキーノートのホストを務めたHortonworksのプレジデントであるハーブ・クーニッツ(Herb Cunitz)氏は,オープニングで現在のデータビジネスを取り巻くテーマを5つ挙げています。

  • 急速に進むデジタル化により,あらゆる顧客はビジネスを変容(transform)させる必要に迫られている
  • テクノロジの側面だけではなく,ビジネスバリューの側面からデータが語られるようになっている
  • データがどこに分散していてもつねに"Connected"である状態が求められており,とくにデータセンターとクラウドをまたいだ連携が重要になっている
  • エンタープライズでの利用に耐えるにはセキュリティとガバナンスを備えたスケーラビリティが必要
  • エコシステムの構築と成長を促進する

Hortonworksのプレジデント,ハーブ・クーニッツ氏によるオープニングセッション

Hortonworksのプレジデント,ハーブ・クーニッツ氏によるオープニングセッション

クーニッツ氏が挙げているトレンドはここ1,2年のIT業界でよく耳にするものですが,ことHadoopビジネスに限って言えば,クラウドとの連携はもっとも注目度の高いテーマです。これまでHadoopを導入する企業のほとんどはオンプレミス(データセンター)での稼働を選択していました。しかし,エンタープライズ企業によるAmazon Web Services(AWS)やMicrosoft Azureなどパブリッククラウドへのデータ移行が急激に進むに従い,"Elephant in the Cloud"―クラウド上でのHadoopのデプロイおよびデータセンターとクラウドのデータ連携が現実感を伴ったニーズとなりつつあります。

ではHadoopのトップベンダであるHortonworksはこのクラウドへのニーズをどのように捉えているのでしょうか。初日キーノートに登壇したHortonworksのロブ・ビアデンCEOは「データの性質と処理のパターンによって,クラウドとデータセンターを使い分け,適切に連携させることが重要」と強調しています。⁠適切なデータを適切な場所に置き,互いに連携させることでつねに"Connected"なデータプラットフォームが構築され,データを価値に変えるスピードを加速する」⁠ビアデンCEO)

Hortonworksのロブ・ビアデンCEOによるプレゼン:現在求められているのはクラウドとデータセンター間のデータのシームレスな連携

Hortonworksのロブ・ビアデンCEOによるプレゼン:現在求められているのはクラウドとデータセンター間のデータのシームレスな連携

ビアデンCEOはここで具体例としてリテール業界におけるデータ連携を取り上げています。POSデータにもとづいたサプライチェーンの最適化,店舗におけるオペレーション,インベントリシステムの構築,ソーシャルメディアからの情報の吸い上げ,顧客の購入パターンの分析,ロイヤリティプログラムや顧客の360度分析など,業界に特化したニーズに対し,高い精度とスピードでもって応えていくためには,1ヵ所にデータを集約するのではなく,データのステータス(誕生したてのデータ/動くデータ/静止するデータ)と処理のパターンによって置き場所を分ける必要があります。リアルタイムにソーシャルデータのエッジ分析を行うならクラウド上ですべての処理を完結し,インベントリシステムならデータセンター上に対象となるデータを集約してヒストリカル分析を行う,といったように"適材適所"なデータの扱いがいまのビジネスには求められているのです。

「Hadoopがバッチオリエンティド(batch oriented)だった10年前とは,データアプローチのスタイルが激変している」というビアデンCEOの言葉通り,データソースもデータ処理のパターンもその書き出し先も多様化しています。もちろん,これまでも「Amazon Elastic MapReduce」のようにパブリッククラウド上で提供されるHadoopのマネージドサービスはありましたし,Treasure DataのようにAWSクラウドの上に構築されたHadoop基盤上でデーター分析サービスをワンストップで提供するベンダもあります。しかし現在求められているのは単なるクラウドへのデータ集約や分析ではなく,データの性質に応じたクラウドとデータセンターの使い分けと,それらのシームレスな連携,つまり"Connected"であるというのがHortonworksの主張です。データはどうしても部門ごと,事業ごとにサイロ化しがちなので,これらを自在に連携させることこそがビジネスの差別化に欠かせないとしています。

Hortonworksは2015年7月,Apache NiFiというデータフローオーケストレーションツールの開発を手掛けるOnyaraというベンチャーを買収し,この技術をベースに「Hortonworks DataFlow(HDF)⁠というディストリビューションを展開しています。従来から提供するApache Hadoop 100%互換の「Hortonworks Data Platform(HDP)⁠が"静止するデータ(Data in Rest)"を扱うのに長けているとしたら,HDFはIoTのストリームデータなど"動くデータ(Data in Motion)"の収集から分析を行うのに適しています。もちろんクラウドにもオンプレミスにも対応しています。静と動のデータをクラウドとオンプレミスの両方でConnectedな状態を保つ ―"Elephant in the Cloud"というよりも"Elephant also in the Cloud"のほうが適切かもしれません。

データオーケストレーションツールのApache NiFiはHDFのベースとなるプロダクト。データフローを最初から最後までデザインできるところが最大のポイントで,ストリームデータなど動くデータを扱うのに最適

データオーケストレーションツールのApache NiFiはHDFのベースとなるプロダクト。データフローを最初から最後までデザインできるところが最大のポイントで,ストリームデータなど動くデータを扱うのに最適

静止するデータ(Data at Rest)と動くデータ(Data in Motion)を適切に連携させることが今後のHadoop上でのデータ分析におけるキーテーマ

静止するデータ(Data at Rest)と動くデータ(Data in Motion)を適切に連携させることが今後のHadoop上でのデータ分析におけるキーテーマ

著者プロフィール

五味明子(ごみあきこ)

IT系の出版社で編集者としてキャリアを積んだ後,2011年からフリーランスライターに。フィールドワークはオープンソースやクラウドコンピューティング,データアナリティクスなどエンタープライズITが中心。海外カンファレンス取材多め。Twitter(@g3akk)やFacebookで日々IT情報を発信中。

北海道札幌市出身/東京都立大学経済学部卒。

コメント

コメントの記入