レポート

日本よ,これが2014年のHadoopだ!─「Hadoop Conference Japan 2014」基調講演レポート

この記事を読むのに必要な時間:およそ 6 分

Hadoopに移行できない処理は存在しない─ダグ・カッティングの語るHadoopの未来

基調講演のトップバッターに立ったのはHadoopの生みの親として,そしてApache Software Foundationのボードメンバーとしても名高いダグ・カッティング氏。現在はClouderaのチーフアーキテクトも務めています。

ダグ・カッティング氏。今回通訳がなかったため,ゆっくりとわかりやすい言葉で来場者に語りかけていました

ダグ・カッティング氏。今回通訳がなかったため,ゆっくりとわかりやすい言葉で来場者に語りかけていました

「The Future of Data」と題されたキーノートでは,はじめに「私は未来を予測することはできない。だが現在のファクト(データ)からいくつかの真実を予測することはできる」と前置きし,いくつかのファクトを挙げながら,そこから推測される近い未来の可能性について提示していきました。

  • ハードウェア価格はより安くなっている → より多くのデータをストアできるようになる
  • データの価値はさらに高まっている → データを有効活用した企業が競争相手に勝利する
  • オープンソースが勝ち残っている → プラットフォームテクノロジはオープンソースであることがマストになる
  • Hadoopは成長を続けている → さらに成長を続け,よりソリッドなシステムとなり,データ処理のOS的存在となる
  • Hadoopがあたりまえの存在になり多くのエコシステムが誕生している → 今後もより多くのツールやシステム(ストリーミングシステムやグラフプロセッシングシステムなど)がHadoopに追加されていく
  • Hadoopにはコンペティターが存在しない,Hadoopがビッグデータを席巻している → トラディショナルなデータベースやデータウェアハウスからHadoopへのデータ移行が加速し,サイロ化したシステムが減少する
  • (いまはまだ不十分だが)トランザクション処理でさえHadoop上での実行が可能に → Hadoopでできない処理はほとんどなくなる

筆者は今回,カッティング氏に単独インタビューする機会に恵まれたのですが,その席上でも同氏がオープンソースへの強いこだわりを見せていた姿が非常に印象的でした。ご存知の方も多いと思いますが,カッティング氏はHadoopだけでなくLucene(現在はApache LuceneやNutchといったオープンソースの検索システムを過去に作り出しています。そうした経験からも,オープンソースこそが開発リスクを低減する唯一のプラットフォームであるという強い信念を抱いているようです。プラットフォームテクノロジ,とりわけデータ分析にかかわる部分は「オープンソースであることが"要求"されるようになる」と強調していたカッティング氏ですが,プロプライエタリを含め数あるコンペティターの存在を消し去ってきたHadoopプロジェクトを生み出し,いまもトップにいる人の言葉には強い確信と高い可能性があふれています。

オープンソースこそが勝ち残りへの道

オープンソースこそが勝ち残りへの道

もうひとつ興味深かったのは,Hadoopがトランザクション処理の実行環境にもなろうとしている点です。HadoopといえばデータのストアやBIのような分析の基盤というイメージですが,カッティング氏は「Hadoopに移行できない処理はほとんど存在しないと思っている。Googleが2年前に発表したGoogle Spanner(全地球規模の並列分散処理データベース)のように,いまは満足にできなくても近い将来必ずHadoopでできるようになる」と明言しています。⁠Hadoopと同じプロセッシングができるソフトウェアは少ないが,ほかのソフトウェアでできるプロセッシングでHadoopができないことはほとんどない」⁠カッティング氏)⁠今後のHadoopの機能強化/追加に引き続き注目が必要ですね。

そしてここまでの予測を総合し,最後にはHadoopが「エンタープライズデータハブ」になるとカッティング氏はまとめています。ハードウェアが安く強力になり,より多くのデータがストアできるようになった現在,データ分析の基盤となるプラットフォームは誰もがいつでもどこでも使えるコストと利便性,そしてプラットフォーム自体が成長する余地を備えていなければならず,必然的にオープンソース以外の選択肢はないというカッティング氏。そしてあらゆるプロセッシングの中心にはHadoopがあり続けると断言します。⁠我々はまだデータプロセッシングの革命の途上にある。だが最も安全な道を選ぶとすればそれはHadoop」⁠数年後,ダグ・カッティングの未来予測ははたしてどこまで実現しているのでしょうか。

Apache Sparkが開くHadoopの新たな1ページ

カッティング氏に続いて登壇したのは,いまHadoopエコシステムの中でも最もアツいと言われている「Apache Spark」の主要開発者 パトリック・ウェンデル氏です。ウェンデル氏はSparkの開発に深くコミットしているシリコンバレーのビッグデータベンチャー Databricksに所属しており,日々の活動のほとんどをSpark開発に費やしています。

自ら翻訳したプレゼン資料を披露するパトリック・ウェンデル氏

自ら翻訳したプレゼン資料を披露するパトリック・ウェンデル氏

成長著しいオープンソースプロジェクトだけあって,Sparkコミュニティの活動は非常に活発で,1週間で500件ものパッチ投稿/修正が寄せられるそうです。メーリングリストやGitHubなどでのディスカッションも多く,つねに何らかの修正や追加がソフトウェアに加えられている状況にあります。

このように急激な成長を続けているSparkですが,プロジェクトを継続させるには安定性も欠かせません。Sparkは今後,どのようなゴールを目指して開発を進めていこうとしているのでしょうか。

ウェンデル氏はまずSparkプロジェクトの目的として

  • データサイエンティストやエンジニアの能力のパワーアップ
  • 表現力のあるクリーンなAPI
  • さまざまな環境をまたいで動作する実行環境
  • パワフルな標準ライブラリ

の4つを挙げ,これらを継続的に開発者やユーザに提供していくことを掲げています。とくにAPIに関しては,5月末にリリースした初の標準APIである「Spark 1.0」が登場して以来,アプリケーションプラットフォームとしての安定性が飛躍的に高まったと強調しています。⁠リリースサイクルはできるだけデベロッパフレンドリになるように心がけており,マイナーリリースは3ヵ月ごと,メンテナンスリリースは必要に応じて提供していく。だがパッチリリースに関しては慎重に行っていく方針」⁠ウェンデル氏)

Sparkの構成は大きく2つに分かれており,プロセッシングの要となるエンジン「Spark Runtime」とその上で動く複数のライブラリが存在します。ライブラリにはグラフプロセッシングの「GlaphX」やリアルタイムストリーミング処理の「Spark Streaming」などがあり,ウェンデル氏は「Sparkの未来はライブラリにある」と言い切るほど重要視していますが,その中にあって現在最もホットなライブラリは「Spark SQL」とのこと。 SQLおよびスキーマ型のメカニズムをサポートするコンポーネントです。現在,Spark SQLにおいて優先的に取り組んでいる課題は「クエリ最適化」⁠言語の拡張」⁠インテグレーション」の3つだとウェンデル氏。とくにインテグレーションにおいては,HiveデータやNoSQLデータだけでなくOracleやSAPといったプロプライエタリなRDBデータとのスムースな統合も目指しているそうで,今後の機能強化が期待されます。

ウェンデル氏によるとSpark SQLは⁠スパーク スィークル⁠と発音します

ウェンデル氏によるとSpark SQLは“スパーク スィークル”と発音します

なお,ウェンデル氏が所属するDatabricksでは,クラウド上でSparkクラスタを利用できるDatabricks Cloudを提供しています。壇上ではウェンデル氏によるDatabricks Cloudのデモが披露され,クラウド上でScalaを使ってアドホックな分析結果をビジュアルかつダイナミックに表示するNotebookを作成するさまに,会場からは歓声も聞こえてきました。

簡単なデモでTwitterの1日のデータストリームを解析してみせるウェンデル氏。英語のつぶやき(赤いグラフ)と日本語のつぶやき(緑のグラフ)の活動時間帯がちょうど反転しています

簡単なデモでTwitterの1日のデータストリームを解析してみせるウェンデル氏。英語のつぶやき(赤いグラフ)と日本語のつぶやき(緑のグラフ)の活動時間帯がちょうど反転しています

「Sparkは次の1年も十分な成長を遂げていく」と最後に明言したウェンデル氏。革新性と安定性という両立がむずかしい課題にあえてチャレンジしていく姿はとても力強く見えます。こうした意欲的なプロジェクトや開発者がHadoopの周辺につねに生まれているのであれば,カッティング氏の予測にもあるとおり,Hadoopでできないデータ処理はなくなるのかもしれません。

著者プロフィール

五味明子(ごみあきこ)

IT系の出版社で編集者としてキャリアを積んだ後,2011年からフリーランスライターに。フィールドワークはオープンソースやクラウドコンピューティング,データアナリティクスなどエンタープライズITが中心。海外カンファレンス取材多め。Twitter(@g3akk)やFacebookで日々IT情報を発信中。

北海道札幌市出身/東京都立大学経済学部卒。

コメント

コメントの記入