レポート

過渡期を迎えるHadoopとデータビジネス ―ゾウが消えた「DataWorks Summit 2017 San Jose」

この記事を読むのに必要な時間:およそ 5 分

リアルタイムデータ分析も新時代へ

HortonworksはDataWorks Summitの直前に,HDPと並ぶ同社のフラグシップ製品「Hortonworks DataFlow(HDF)⁠の最新アップデートである「HDF 3.0」をリリースしています。HDFは"Data-in-Motion",つまりストリーミングデータなど"動くデータ"を扱うことに適したソリューションで,オープンソースのApache NiFiをベースに,Apache KafkaやApache Stromといったメッセージングシステムも含まれています。HDFではリアルタイムなデータの流れ(フロー)をクラウド/オンプレミス問わずにオーケストレーションすることが可能でしたが,HDF 3.0ではさらに以下の機能が追加されています。

Streaming Analytics Manager(SAM)
ドラッグ&ドロップだけでストリーミングデータ分析アプリケーションが構築可能にするコーディングレスなコンポーネント
Schema Registry
NiFi,Kafka,Stormといった複数のストリーミングエンジンをまたがって,アプリケーションが相互にやり取りすることを可能にするスキーマ共有リポジトリ
IBM Power Systemsのサポート

HDFは,IoTや不正検出といったリアルタイムデータの分析ニーズが高まっていることもあり,着実に市場にその価値を浸透させています。2日目(6/14)のキーノートに登壇したHortonworksのエンジニアリング部門シニアディレクターでApache NiFiのプロジェクトリーダーでもあるジョー・ウィット(Joe Witt)氏は「データのライフサイクルはエッジデバイスでデータが誕生するところからはじまる。データが生まれてからどこを流れ,どのポイントで分析され,集約されていくのか,HDFはエンドツーエンドでデータを管理し,さらに可視化することで,リアルタイムなデータの状況を把握することができる」とストリーミング処理の実行基盤としてのHDFの優位性を強調していました。

HortonworksでHDFの開発を指揮するジョー・ウィット氏。NiFiの生みの親であり,コミュニティのリーダーでもある

HortonworksでHDFの開発を指揮するジョー・ウィット氏。NiFiの生みの親であり,コミュニティのリーダーでもある

セッションでもNiFiやKafkaを組み合わせ,リアルタイムデータ処理環境を構築し,現場で活用している事例がいくつが紹介されていました。そのひとつがチャットワークとNTTデータによるメッセージングサービスの事例で,読み込み(read)中心のメッセージングリクエストをリアルタイムに処理するパイプラインをKafka,HBase,そしてAkkaというオープンソースのツールキットを組み合わせて構築するという内容でした。こちらについてはまた稿を改めて紹介したいと思います。

日本人による唯一のセッション,チャットワーク 大村伸吾氏(右)とNTTデータ 土橋昌氏によるKafka,HBase,Akkaを使ったイベントソーシングシステム構築事例の発表の模様(詳細は別記事で紹介予定)

日本人による唯一のセッション,チャットワーク 大村伸吾氏(右)とNTTデータ 土橋昌氏によるKafka,HBase,Akkaを使ったイベントソーシングシステム構築事例の発表の模様(詳細は別記事で紹介予定)

ビッグベンダが名を連ねるユーザ事例

DataWorks Summitでは最先端のユーザ企業によるユニークなデータ活用や最新技術について話を聞くことができるのが大きな魅力のひとつですが,今年はやはりAI関連のセッションが非常に多く,なかでも一番人気はGoogleのディープラーニングフレームワークであるTensorFlowに関するものでした。以下,筆者が参加したセッションから,いくつか興味深かったものを簡単に紹介します。

Yahoo!によるディープラーニングフレームワーク「TensorFlowOnSpark」

Yahoo!ではHadoopのデータセットをベースにしたSparkクラスタを構築し,その上で多くのアナリティクエンジンを走らせていますが,2016年まではディープラーニング用のクラスタは別に構築されていました。しかしスケーラビリティやパフォーマンスに難が生じることが多くなったため,他のマシンラーニング処理基盤と同じSparkクラスタ上で動作する「TensorFlowOnSpark」を開発,現在ではオープンソースとして公開しています。特徴はRDMA(Remote Direct Memory Access)プロトコルをノード間通信でサポートしている点で,これによりgRPCよりも高速な処理を実現できています。⁠TensorFlowはビッグデータクラスタにディープラーニングをもたらす画期的な技術。今後はTensorFlowとKerasの統合も視野に入れて開発を進めていく」⁠Yahoo!)

TensorFlowOnSparkのアーキテクチャ

TensorFlowOnSparkのアーキテクチャ

Uberによるリソースマネジメントスケジューラ「Peloton」

2014年からHadoopを導入し,2017年現在では5000ノードを超えるHadoopクラスタを構築し数百ペタバイトのデータをその上で扱っているUber。これほど巨大なHadoopクラスタを運用するとなると,リソース管理にはやはり独自のメソッドが必要となります。現在,Uberではリソース管理にYARNとMesos,そしてYARN用のMesosフレームワークであるApache Myriadを使っていますが,それぞれに一長一短があり,またこれらを統合して使いたいというニーズが出たことから,現在,インハウスで「Peloton」というリソースマネジメントのためのスケジューラを開発中とのこと。今年中にはオープンソースとして公開する予定だそうです。

Uberがインハウスで開発中のリソースマネジメントスケジューラ「Peloton」⁠GPUもすでにサポート済みとのこと。2017年中にはオープンソース化される予定

Uberがインハウスで開発中のリソースマネジメントスケジューラ「Peloton」。GPUもすでにサポート済みとのこと。2017年中にはオープンソース化される予定

Paypalによるディープラーニングを活用したリアルタイム不正検出

2億以上ものアクティブアカウントを抱えるPayPalは世界でも最大級のプライベートクラウドを運用していることで知られています。日々,膨大な数の金銭取引が発生するPayPalですが,不正行為や詐欺行為を検出するために「アクティブラーニング(Active Learning)⁠というディープラーニングとGBT(Gradient Boosting Trees)アルゴリズムをベースにしたフレームワークを構築し,大きな効果をあげています。不正行為の検出にはエキスパートの知見がどうしても必要で,しかもアウトソースできないため,これまでラベリングに非常に時間がかかっていましたが,このフレームワークを適用することでパフォーマンス向上に加え,ラベリングのコストが大幅に削減できたとしています。

PayPalが詐欺防止と不正検出のために開発したディープラーニングをベースにしたフレームワーク「Active Learning」のアーキテクチャ

PayPalが詐欺防止と不正検出のために開発したディープラーニングをベースにしたフレームワーク「Active Learning」のアーキテクチャ


冒頭でも触れたとおり,Hadoop SummitあらためDataWorks Summitとして開催された今回のカンファレンスは,去年までの"Hadoop開発者の祭典"という雰囲気は薄れ,かわりにビジネス色の強いイベントとなりました。参加者も昨年の4000人から2500人と数を大きく減らしており,Hadoopのマスコットキャラであるゾウも見当たりません。筆者は2015年2016年と連続してこのカンファレンスに参加してきましたが,今年はやはり開発者の熱量を強く感じることはできませんでした。

Hortonworksは現在,Hadoopビジネスからデータビジネスへとその方向性を大きくシフトし,いちHadoopベンダからの脱却を図っています。IBMやMicrosoft,NVIDIAといったパートナーとの密な協力関係を前面的に出してきたのも,データカンパニーとして新たなエコシステムを構築していることを示したといえます。一方で,Hortonworksが創業時からの掲げている「オープンソースコミュニティとともに成長し,貢献する」という理念は今後も変わらずに維持していくはずです。AIやディープラーニングといったデータビジネスのトレンドを押さえ,市場でリーダーポジションを獲得しながらも,ふたたび開発者の熱量を上げていくことができるのか。Hortonworksが企業として次のステージに向かう大きな岐路に立っていることは間違いなさそうです。

著者プロフィール

五味明子(ごみあきこ)

IT系の出版社で編集者としてキャリアを積んだ後,2011年からフリーランスライターに。フィールドワークはオープンソースやクラウドコンピューティング,データアナリティクスなどエンタープライズITが中心。海外カンファレンス取材多め。Blog 「G3 Enterprise」やTwitter(@g3akk),Facebookで日々IT情報を発信中。

北海道札幌市出身/東京都立大学経済学部卒。

コメント

コメントの記入