レポート

変化の先にある進化,そして本当の浸透をめざすHadoopとSpark─Hadoop / Spark Conference Japan 2016キーノートレポート

この記事を読むのに必要な時間:およそ 5 分

急成長を遂げるSpark,次にめざすのは10倍高速な分散処理エンジン

冒頭でも触れたとおり,今回のカンファレンスでは日本での開催は初めてとなるSpark Conference Japanも併催しています。基調講演では実行委員の取りまとめ役であり,日本人唯一のSparkコミッタとして活躍するNTTデータの猿田浩輔氏が開催の挨拶を行っています。

2015年は世界中で急速にSparkの普及が進んだ年でもありました。日本もその例に漏れず,Spark関連の情報は書籍や雑誌,Webなどでも数多く見かけるようになっています。猿田氏はそうした状況について,⁠Sparkの日本人コントリビュータも増え,商用運用している例も多数出てきた。一方でいまだに多くの人たちが"手探り"の状態でSparkの活用や開発を行っている。今回のカンファレンスが,Spark活用の取り組みを発信したり,活用のヒントを得たり,または開発に携わるきっかけになればと願っている」と語っています。

猿田浩輔氏によるSparkカンファレンスキーノート

猿田浩輔氏によるSparkカンファレンスキーノート

なお,本カンファレンスの事前登録者(1347名)を対象に行ったアンケート結果によれば,70%の参加者が実際にSparkを利用中もしくは利用を検討している段階にあり,12%の参加者はすでに本番環境で運用中で,そのうち6%は1年以上に渡って運用しており,中には3年以上運用しているケースもあるとか。国内でのSparkブームは意外と地に足がついているのかもしれません。また,利用中のコンポーネントとしては55%がSpark SQL / DataFrameを利用していると回答,さらに用途のわかりやすいMLibやSpark Streamingも40%近く利用されているという結果が明らかになりました。

アンケートからも明らかなSpark人気の高さ

アンケートからも明らかなSpark人気の高さ

Sparkは「ビッグデータ界のテイラー・スウィフト」

このように日本でも高まる一方のSpark熱ですが,現在のSparkはどのようなステージにあるのでしょうか。猿田氏に引き続き登壇したのは米Databricksの創業者のひとりであるレイノルド・シン(Raynold Xin)氏です。現在Sparkコミュニティの3代目リリースマネージャでもあるシン氏は,Sparkの現状,そして5月にリリースが予定されているSpark 2.0のトピックを中心に基調講演を行いました。

シン氏はまずSparkとは何かという定義として「open source data processing engine built around speed, ease of use, and sophisticated analytics(スピード,使いやすさ,洗練された分析を兼ね合わせたオープンソースのデータ処理エンジン)⁠という表現を用いています。

レイノルド・シン(Raynold Xin)

レイノルド・シン(Raynold Xin)氏

続けてSparkにとっての2015年を"Great year for Spart"(Sparkにとって大きな年)と振り返っています。その大きな理由として

  • 1000人以上のコントリビュータを出した最も活発なオープンソースプロジェクトに成長
  • Spark 1.4で新たにR言語のサポート
  • 幅広い業界サポートと採用

を挙げています。筆者は昨年,米国で10を超えるIT系カンファレンスに参加しましたが,取材を重ねるごとに,Sparkへの関心が高まっていくのを肌で感じました。とくにIBMのSparkへの傾倒ぶりは強烈で,Sparkプロジェクトに対する度重なる資金の投資と人員の投入を行ってきており,2015年6月にはサンフランシスコにSpark Technology Centerという研究所をオープンしています。

こうした過熱ぎみのSparkブームについて,元Gigaomのジャーナリストで現在はMesosphereのシニアリサーチアナリストを務めるデリック・ハリス(Derrick Harris)氏は「Sparkはビッグデータソフトウェアのテイラー・スウィフト(Taylor Swift)だ」表現していますが,たしかにデビューして数年は"知る人ぞ知る"的な人気だったテイラーが瞬く間にスターダムをのし上がったさまは,2010年に誕生したSparkが2015年に突如としてNo.1オープンソースの座に就いた状態に近いのかもしれません。潜在的パワーが強力だったところもテイラーによく似ているといえます。

では急激な成長を遂げるSparkは,現在どのような環境で稼働しているのでしょうか。シン氏が示したスライドによれば,48%がスタンドアロンな環境で実行されており,51%がパブリッククラウド(AWS,Azure,GCPなど)上で稼働しているとのこと。また実行基盤としてYARNが40%,Mesosが11%という調査結果が出ていますが,シン氏によれば「Mesosが急激に伸びている」という点が注目されるそうです。

またSparkを利用している企業の内訳として,最も多いのがソフトウェア業界(29.4%)で,つづいてITコンサルティグ(14.0%)⁠広告/マーケティング/PR(9.6%)と続いています。金融やヘルスケア,キャリア/通信といったエンタープライズ業界での採用は,増えてはきつつあるものの,まだそれほどの比重を占めるには至ってないようです。

さらにSparkアプリケーションとして利用されている上位は1位がビジネスインテリジェンス(68%)で,2位がデータウェアハウジング(52%)⁠3位にレコメンデーション(44%)と続いています。6位に不正検出/セキュリティが入っているのも,セキュリティに機械学習などのビッグデータ分析技術を取り入れている企業が多い米国のトレンドが反映されています。

Sparkの現状を説明したあと,シン氏は開発中のSpark 2.0について触れています。2016年2月時点での最新バージョンはSpark 1.6ですが,次のバージョンとなるSpark 2.0は5月に正式公開が予定されています。その2.0の特徴についてシン氏は

フロントエンド(RDD,DataFrame,ML Pilelineなどユーザが直接触れるAPI)
フロントエンドAPIの作成。ストリーミングDataFrame/Dataset SQL
バックエンド(スケジューラ,シャッフル,演算子などの実行環境)
10倍のパフォーマンス,全ステージコード生成ベクトル化

と述べています。

Sparkは2.0で「超進化」

Sparkは2.0で「超進化」

SparkプロジェクトではフロントエンドAPIの整備に関しては

  1. シンプルだが表現豊かに
  2. セマンティクスが十分定義されている
  3. 十分に抽象化することでバックエンド処理を最適化

という3つの指針を用意して開発にあたっているそうです。2.0においてとくに大きな変更点となりそうなのがDataFrame APIの拡張で,Java,Scala,Python,SQLといった言語フロントエンドからDataFrame Logical Planに落とし込まれたバイナリをJVM以外の実行環境(Tungstenなど)でも実行できるようにするとのこと。また,2.0でのフロントエンドAPIにおいては

  • ストリーミングDataFrame
  • DataFrameとDataSetの成熟とマージ
  • ANSI SQL(自然結合,サブクエリ,ビューサポート)

といった課題を前提に開発が進められているそうです。

このうちストリーミングDataFrameに関してシン氏は以下のように述べています。⁠Sparkにおけるストリーミング処理はとてもむずかしい。長期間に渡るアウトプット,遅れてくるデータ,障害,ディストリビューションなどの問題があり,しかもストリーミングはすべての複雑なオペレーションに渡って機能する必要がある。だからこそ指針にもあげたようにセマンティクスの定義が重要だ。十分に定義されたセマンティクスが用意されていれば,ばらばらにくるデータも障害もうまくさばくことが可能になる」

Sparkはすでにかなり速い

Sparkはすでにかなり速い

一方,2.0のバックエンド部分でゴールに設定されている"10倍の高速性"については実現可能なのでしょうか。⁠今でも十分速いとされているSparkを2.0でさらに10倍速くできるのか,その答えをほんの少しだけ見せよう」とシン氏はSQL/DataFrameのパフォーマンスに関するスライドを提示しています。現在のSpark 1.6では1395万行/秒のスループットですが,開発中のSpark 2.0では1億2500万行/秒にまで向上しています。ほぼ10倍近い高速化はおそらくTungstenの成果だと思われます。

現在,GitHub上で活発な開発が行われているSpark 2.0。予定通りいけば,3月から4月にかけてコードがフリーズされ,5月には正式リリースの運びとなります。10倍高速化されたSparkは並列分散処理環境の世界をどのように変えていくのか,今から非常に楽しみです。

著者プロフィール

五味明子(ごみあきこ)

IT系の出版社で編集者としてキャリアを積んだ後,2011年からフリーランスライターに。フィールドワークはオープンソースやクラウドコンピューティング,データアナリティクスなどエンタープライズITが中心。海外カンファレンス取材多め。Twitter(@g3akk)やFacebookで日々IT情報を発信中。

北海道札幌市出身/東京都立大学経済学部卒。

コメント

コメントの記入