レポート

過渡期を迎えるHadoopとデータビジネス ―ゾウが消えた「DataWorks Summit 2017 San Jose」

この記事を読むのに必要な時間:およそ 5 分

毎年6月,米サンノゼのダウンタウンにあるSan Jose McEnery Convention Centerでは,世界中のHadoop開発者/ユーザがあつまる年次カンファレンス「Hadoop Summit」が3日間に渡って開催されます。主催するのはApache Hadoopのコミッタを数多く抱え,Hadoopエコシステムとコミュニティを支える中心的存在のHortonworksと,そのHorotonworksのスピンアウト元であり,Hadoopを生み出したYahoo!です。

このHadoopの祭典が今年も6月13日 - 15日(米国時間)にかけて,サンノゼのコンベンションセンターで行われました。しかし今回はカンファレンスの名称が「DataWorks Summit 2017 San Jose」と変わり,⁠Hadoop Summit」は併記されているものの,開発者を中心とした"Hadoopコミュニティの一大イベント"という色は薄れ,かわりに"データビジネスの最新事情を紹介するビッグデータカンファレンス"という位置づけにリブランディングされた印象を受けました。中でもAIへの関心がIT業界を超えて高まっているトレンドを反映してか,キーノートやセッションにおいてもディープラーニングやマシンラーニングの話題が中心となっています。

「Hadoop Summit」あらため「DataWorks Summit」の会場であるSan Jose McEnery Convention Center。最近はAppleのようにサンフランシスコのモスコーンからこのサンノゼのコンベンションセンターに会場を移してイベントを開催するIT企業が増えている

「Hadoop Summit」あらため「DataWorks Summit」の会場であるSan Jose McEnery Convention Center。最近はAppleのようにサンフランシスコのモスコーンからこのサンノゼのコンベンションセンターに会場を移してイベントを開催するIT企業が増えている

データビジネスをめぐる世界が大きく変化していく中にあって,データプラットフォームのデファクトスタンダートしての地位を確立してきたHadoopもまた,時代のニーズに応じた変化を迫られているようです。本稿では3日間の現地取材で得たHadoop関連トピックを紹介しながら,Hadoopとデータビジネスの現在を切り取ってみたいと思います。

Hadoopエコシステムは次世代データレイクを担うことができるか?

前述したとおり,AIやディープラーニングがIT業界を超えた社会的なトレンドになっている現状を反映してか,主催者であるHortonworksによる発表もAI/ディープラーニングにフォーカスしていた感があります。

その象徴が初日(6/13)のオープニングキーノートにおいてHortonworks CEOのロブ・ビアデン(Rob Bearden)氏から発表されたIBMとHortonworksのデータサイエンス事業におけるパートナーシップ強化です。IBMは同社で開発していたHadoopディストリビューション「IBM BigInsights」を捨て,今後は「Hortonworks Data Platform(HDP)⁠を公式のHadoopプラットフォームとして扱い,既存のBigInsightsユーザはHDPへと移行することになります。IBMはここ数年,WatsonをはじめとするAIおよびデータアナリティクス事業に強くコミットしていく方針を打ち出していますが,その姿勢をさらに強化し,リソースをこれらの事業に集中させるためにも,データの格納庫となるHadoopそのものの開発からは手を引き,従来から強いパートナー関係にあるHortonworksにその部分を任せる選択をしたのです。

カンファレンスのオープニングキーノートの冒頭でビアデンCEO(左)から発表されたIBMとの提携。IBMはHDPを同社の公式Hadoop製品として今後扱うことになる

カンファレンスのオープニングキーノートの冒頭でビアデンCEO(左)から発表されたIBMとの提携。IBMはHDPを同社の公式Hadoop製品として今後扱うことになる

この提携により,HortonworksはIBMのデータサイエンス製品である「IBM Data Science Experience(DSX)⁠をHDPにバンドルして再販することが可能となり,Hortonworksにとっても戦略上,非常に大きなメリットとなります。AIやデータサイエンスという競争の激しい分野でメインプレーヤーとして生き残っていくためには,それぞれの強みに特化する"選択と集中"が必要な時期に来ていることを示した発表だったといえます。

ではAI/ディープラーニングにスポットライトが当たっている現在,データプラットフォームとしてのHadoop,そしてHadoopのメインディストリビュータであるHortonworksにはどのような役割が求められているのでしょうか。今回の取材を通して筆者が強く感じたのは,データレイクとしてのHadoopの価値があらためて問われているという点です。ビッグデータという言葉が登場した2011年ごろから,大量の生データをスケールして格納できるHadoopはデータレイクの代表的な存在でしたが,2017年の現在に求められているデータレイクは5年前のそれとは同じではありません。Hortonworksの創業者のひとりであり,エンジニアリング部門のバイスプレジデントを務めるアルン・マーシー(Arun Murthy)氏は3日目(6/15)のキーノートにおいて「次世代データレイクを構築するための4つのドライバ」として

  • ディープラーニングプラットフォーム
  • サードパーティによるモダンデータアプリケーションの稼働
  • セキュリティとガバナンス
  • クラウドファースト

を挙げていますが,これはそのまま次世代のHadoopに求められるポイントであり,Apache Hadoopの開発に最も深く関わるHortonworksがプラットフォーマーとしてクリアすべき課題でもあります。とくにディープラーニングでは精度を高めるためにペタバイト級のデータが要求されることもめずらしくありません。

Hortonworksの創業者であり,エンジニアリング部門を統括するアルン・マーシー氏。Hadoopコミッタ(PMC)でもあり,コミュニティにおける中心人物のひとり

Hortonworksの創業者であり,エンジニアリング部門を統括するアルン・マーシー氏。Hadoopコミッタ(PMC)でもあり,コミュニティにおける中心人物のひとり

初日のキーノートにゲストとして登壇したNVIDIAのバイスプレジデント兼ジェネラルマネージャのジム・マクヒュー(Jim McHugh)氏は「データはディープラーニングにとっての血液であり活力源(lifeblood)⁠と表現していましたが,その通りであるなら,その量は多ければ多いほどよいということになります。加えて,多数のGPUを活用するディープラーニングでは,当然ながらノード間で高速にデータを共有できる分散並列処理基盤が不可欠です。また,実行エンジンの異なる複数のアプリケーションを最適化して稼働させるためのリソース管理も重要なポイントです。Hadoopはディープラーニングのためだけのプラットフォームではありませんが,ディープラーニングをイネーブルにするデータレイクとして,5年前よりもずっと洗練された,モダンなアーキテクチャを備えている必要があるのです。

ディープラーニングで無双状態のNVIDIAもHortonworksの重要なパートナー。⁠ディープラーニングで重要なのはアルゴリズムよりもデータ。大量のデータこそがディープラーニングの血液となる」とNVIDIAのマクヒュー氏(左)

ディープラーニングで無双状態のNVIDIAもHortonworksの重要なパートナー。「ディープラーニングで重要なのはアルゴリズムよりもデータ。大量のデータこそがディープラーニングの血液となる」とNVIDIAのマクヒュー氏(左)

ではAI時代に最適化されたデータレイクを構築するために必要な"モダンなアーキテクチャ"とは具体的には何を指すのでしょうか。マーシー氏はキーノートにおいてHortonworksが現在取り組んでいる「Hortonworks Data Cloud v2.0」「Data Lake 3.0 by Hadoop 3.0」を紹介していました。ここで注目したいのは,年内にもリリースされる予定のHadoop 3.0をベースにしたデータレイクアーキテクチャを「Data Lake 3.0」と呼んでおり,Data Lake 3.0における「データOS」としてリソースマネージャのApache YARNを位置づけている点です。

Hortonworksが提唱する「Data Lake 3.0」ではYARNがデータOSとしての役割を果たす。アプリケーションは基本的にコンテナ化された状態で稼働する

Hortonworksが提唱する「Data Lake 3.0」ではYARNがデータOSとしての役割を果たす。アプリケーションは基本的にコンテナ化された状態で稼働する

Hadoop 3.0における新しいYARNのユーザインタフェース

Hadoop 3.0における新しいYARNのユーザインタフェース

1つのクラスタ内で複数の処理基盤を実行できるYARNはHadoopの進化において革新的な変化をもたらした技術ですが,次世代データレイクにおいてはさらに進化したYARNでもって,CPUやメモリ,そしてディープラーニングに欠かせないGPUを含めたリソースを管理し,その上でコンテナ化したアプリケーションを実行させることを目指しています。すでにHortonworksの社内ではData Lake 3.0によるデータレイク環境が構築されており,数百ノードで構築されたYARNクラスタ上で数百万のDockerコンテナと数十万単位のアプリケーションワークロードが稼働しているとのこと。YARNの特徴を活かし,SparkやMapReduce,Tez,TensorFlowなど複数のエンジンを同一クラスタ内で実行し,アプリケーションごとに最適なリソースを配分する,さらにコンテナ化によってアプリケーションの独立性を高めながらもサイロ化を避け,アプリケーション間のやり取りをも可能にする"アプリケーションセントリック"なアプローチでもって次世代のデータレイクとしての存在価値を高める - AI時代のデータレイク構築においてはYARNがこれまで以上に重要な役割を果たすといえるのかもしれません。

Data Lake 3.0はディープラーニングを前提にしたデータレイク環境。YARN上にデプロイされたコンテナの上でTensorFlowアプリケーション(走行中の自動車のリアルタイム検出)が稼働しているデモ

Data Lake 3.0はディープラーニングを前提にしたデータレイク環境。YARN上にデプロイされたコンテナの上でTensorFlowアプリケーション(走行中の自動車のリアルタイム検出)が稼働しているデモ

なお,初日のキーノートにはゲストスピーカーとしてMicrosoftのクラウド部門担当パートナーグループマネージャ スリラム・ラオ(Sriram Rao)氏が登壇し,Microsoftが社内で運用している5万ノードにもおよぶ巨大アナリティクス基盤「Cosmos」をYARNに移行中であることを明かしています。CosmosはかつてHadoopのライバル的な存在であったDryadが実装されている並列分散処理基盤で,現在Microsoftが提供する「Azure Data Lake」の元になっているサービスでもあります。YARNクラスタに移行する理由としてラオ氏は「同一クラスタ内ですべての処理を実行させたいというニーズが高かった。サステナブルでスケーラブルなクラスタを構築するには自社で開発するよりも,すでにあるYARNというイノベーティブな技術を使うのが最適であると判断した」と語っていましたが,Dryadを実装した巨大クラスタがHadoopの要石であるYARN上で構築されているという事実に,隔世の感を禁じ得ない思いがします。

Microsoftが構築するDryadを実装したCosmosクラスタは現在,全面的にYARN上に移行中。スケールしやすく,同一クラスタで複数の処理基盤を実行できる点が大きな魅力だという。⁠MicrosoftはYARNの開発にこれからも貢献していく」⁠ラオ氏)

Microsoftが構築するDryadを実装したCosmosクラスタは現在,全面的にYARN上に移行中。スケールしやすく,同一クラスタで複数の処理基盤を実行できる点が大きな魅力だという。「MicrosoftはYARNの開発にこれからも貢献していく」(ラオ氏)

著者プロフィール

五味明子(ごみあきこ)

IT系の出版社で編集者としてキャリアを積んだ後,2011年からフリーランスライターに。フィールドワークはオープンソースやクラウドコンピューティング,データアナリティクスなどエンタープライズITが中心。海外カンファレンス取材多め。Twitter(@g3akk)やFacebookで日々IT情報を発信中。

北海道札幌市出身/東京都立大学経済学部卒。

コメント

コメントの記入