インタビュー

Beyond Hadoop ─Databricks共同創業者に訊くApache Sparkのポテンシャル

この記事を読むのに必要な時間:およそ 3 分

Sparkをより輝かせる「Tungstenプロジェクト」

─⁠─同じHadoopエコシステムのApacheプロジェクトにApache Flinkがあります。最近,ストリーミング処理に関してはFlinkを推す声も聞かれるのですが,SparkとFlinkの違いはどういったところにあるでしょうか。

シン氏:Flinkはストリーミングに特化したプロダクトなので,SQLやマシンラーニングも含むSparkとはプロジェクト自体が大きく異なるのですが,ストリーミングに関していえば,たしかにSparkのとる手法(マイクロバッチオペレーション)はFlinkとは根本的にことなります。Sparkのストリーミング処理は入ってくるデータに対し,短い時間で何度も細かくバッチを実行していくことで,最終的にはレイテンシを最も低く抑え,データのロスを防いでいます。ピュアストリーミングのFlinkとは設計段階の思想が大きく違うといえるかもしれません。

─⁠─Flinkもそうですが,ここ数年,データの急激な増加を受けて多くのデータ処理系のプロダクトが誕生しました。CassandraのようなNoSQLが人気を博すようになったのも,既存のRDBMSによるスキーマ処理では間に合わなくなったからとも言われます。その一方でいまだに多くのデータベースは1990年代のハードウェアを前提にした設計になっており,GPUやFPGA,SSDといったハードウェアの進化についていけてないように感じます。データ処理プロダクトの開発者として,ハードとソフトを最適化させるということについては,どうお考えになっていますか。

シン氏:(少し考えてから)ハードウェアとのマッチングという意味で,いま苦労しているのはCPUの最適化です。あなたが言うとおり,モダンなハードウェアにデータ処理を最適化させるというのは非常に難しいことです。そこでSparkでは「Project Tungsten」においてSparkのバックエンドでメモリとCPUを効率的に稼働させることに取り組んでいます。ハードウェアの性能向上に合わせ,動的にメモリ管理を行い,コードを生成する,データをキャッシュではなくCPUレジスタに置く,仮想関数の呼び出しを最小限にする ─まだまだ完全とはいえないレベルですが,モダンなハードウェアを意識した設計は今後のSpark開発において重要なビューポイントなのは間違いありません。ハードの性能,とりわけTungstenではモダンなCPUの性能を無駄にしないよう心がけています。ただ,やはりモジュラー化とパフォーマンスのトレードオフの問題が本当に難しく,苦労しているところではあります。

─⁠─前から気になっていたのですが,どうして"Tungsten"というプロジェクト名なんでしょうか。

シン氏:HadoopのプロダクトはHiveやPigなど動物に関する名前が多いですよね。一方,Sparkでは動物ではなく光や明かりにちなんだ名前をつけています。"Spark"という名前からもわかると思いますが。

Tungstenは電球の中でフィラメントなどに使われるタングステンから取っています。いま話したことから引用すれば,ハードとソフトがきちんと最適化されたとき,カチッとスイッチが入って周囲がより明るくなる,そんなプロジェクトに成長すればいいですね。

─⁠─Project Tungstenの成果を取り込んだ「10倍速くなる」Spark 2.0はいつリリースされるのでしょうか。

シン氏:4月末か5月の予定です。そう,もうすぐなんですよね,急がなければ。

Sparkと走り続けてきた日々

─⁠─日本についての印象に聞かせてください。今回,レイノルドさんは初来日ということですが,日本の開発者やコミュニティ,ユーザに対してどのように思われましたか。

シン氏:「みんななんて礼儀正しいんだろう」と本当に驚きました。最初にも言いましたが,去年,日本でもミートアップが開催されるなど,確実にSparkコミュニティの裾野が拡がっていると感じます。日本はユーザ数でいえば世界第4位(米国,中国,オランダに次ぐ)ですが,Databricksにとっても大きな市場になると期待しています。

─⁠─日本法人を作る予定などはあるのでしょうか。

シン氏:近い将来のうちにぜひ実現させたいですね。日本には現在,NTTデータにパートナーになってもらっています。パートナーの数も今後は増やしていきたいと考えています。グローバルビジネスではローカライゼーションが重要なので,パートナーの影響力は非常に大きいですから。

日本人に対しての印象をもうひとつ挙げるなら,すごくハードワーキングな人々が多いということでしょうか。ただ,よく考えたら僕も大学時代にマテイたちとSparkプロジェクトを始めてDatabricksを立ち上げて,コミュニティを軌道に乗せるまで,ずーっとSparkばかりやってきたなあ…と(笑)⁠ 。だから正直言うとハードワーキングな人たちとは感覚的に合いますね。

─⁠─失礼ですけど,いまおいくつなんですか?

シン氏:30歳です。そういえばこれまで,あまりプライベートのことを考えたことがなかった。せいぜいスキーをするくらいですかね。僕,カナダ出身なのでスキーはかなり得意なんですが,よく考えたらプログラミング以外にあまり夢中になったことはないかもしれない…(考えこむ)⁠

─⁠─プログラミングはいつから始められたんでしょうか。

シン氏:中学生のころかな。最初に触ったのはPascalです。それからPHPに移りました。ほとんど独学で勉強して,そのころからオンラインフォーラムに出入りしていました。コミュニティ運営にもそのときの経験が生きているというのはあります。

─⁠─あなたは現在,Sparkのリリースマネージャをされていますが,それはかなり責任が重い仕事ですよね。プレッシャーはありますか。

シン氏:重要な仕事ではありますが,基本的にコミュニティのみんなで決めたことを盛り込んだリリースを出すだけなので,それほど負荷はありません。Apacheのプロジェクトはどれもそうだと思いますが。

─⁠─Linuxのリーナス(Linus Torvalds)みたいなプロジェクト運営はありえないですか?

シン氏:ないない,絶対ありえないですよ! そんな独善的にやってしまったらコミュニティが萎えてしまうじゃないですか。民主的なプロセスを踏むのがApacheプロジェクトの原則ですから。

画像

─⁠─最後にもうひとつ。まだ30歳ということですが,将来,どんな道に進みたいという目標は何かありますか。もしくは誰かロールモデルがいればぜひ教えてください。

シン氏:(しばらく考えこんで)⁠ 考えたことなかったですね。気がついたらいまここにいるという感じで,将来のこととか思うヒマもなかったというのが正直なところです。でもこれからはそういうことも考えていかないといけないのかもしれない。

ロールモデルもとくにいないですね…ずっと独学でやってきたので,誰かを目標にするというやり方をしたことがないんです。あ,でもイーロン・マスク(Elon Musk)は好きです。それくらいかな。いまの質問をもらって,すこし先のことを考えるようにしようと決めました。ありがとう(笑)⁠

著者プロフィール

五味明子(ごみあきこ)

IT系の出版社で編集者としてキャリアを積んだ後,2011年からフリーランスライターに。フィールドワークはオープンソースやクラウドコンピューティング,データアナリティクスなどエンタープライズITが中心。海外カンファレンス取材多め。Twitter(@g3akk)やFacebookで日々IT情報を発信中。

北海道札幌市出身/東京都立大学経済学部卒。

バックナンバー

2016年

  • Beyond Hadoop ─Databricks共同創業者に訊くApache Sparkのポテンシャル

コメント

コメントの記入