レポート

変化の先にある進化,そして本当の浸透をめざすHadoopとSpark─Hadoop / Spark Conference Japan 2016キーノートレポート

この記事を読むのに必要な時間:およそ 5 分

2月8日,東京・大井町きゅりあんで開催された6回目となる国内Hadoopユーザの祭典「Hadoop / Spark Conference Japan 2016」。Hadoopの10周年というアニバーサリーイヤー,そして今回はじめてSparkカンファレンスも併催されたということもあり,事前登録者数は1300名を超えるという盛況ぶりでした。

キーノート会場を埋め尽くす参加者

キーノート会場を埋め尽くす参加者

堂々の登録者数

堂々の登録者数

午前中に行われた基調講演に先立ち,開催の挨拶を行った日本Hadoopユーザ会の濱野賢一朗氏(NTTデータ)「Hadoopはひとつのものではなくなった」と語り,分散処理エンジンもエコシステムもパッケージングも多様になった現在では"これこそがHadoop"といえるものがない現状を説明しています。たとえて言うならば「すこし前のLinuxディストリビューションが乱立していた時期」(濱野氏)に近い状態であり,それは10年前にはおよそ考えられなかった変化だと言えるでしょう。

ではこれからのHadoopはどう変わっていくのでしょうか。濱野氏は「時間が経過するにしたがってLinuxディストロがいくつかの代表的なパッケージに収斂していったように,Hadoopもまたおなじような道をたどるのではないか。もっとも過渡期にあるHadoopがLinuxのように"落ち着き"を見せるのはまだ当分先のこと。世の中にはじめてはびこった分散処理システムとして,Hadoop,そして分散処理はこれからさらに変化/進化/浸透していく」とコメントしています。

マスコットと共に壇上に立つ濱野賢一朗氏

マスコットと共に壇上に立つ濱野賢一朗氏

つねに変わりゆくHadoop,その未来はいまのHadoopのあり方にかかっています。基調講演では計7名の登壇者が開発者として,あるいはユーザとして見たHadoopのリアルタイムな姿を紹介しました。本稿ではそのうち,2本の講演内容を紹介し,HadoopとSparkの進もうとしている未来の一端を垣間見ていこうと思います。

Hadoopをより良いものに! 日本人コミッタ2名によるHadoop普及へのチャレンジ

基調講演の最初はNTTソフトウェア イノベーションセンタの小沢健史氏とNTTデータ 基盤システム事業部の鯵坂明氏による「Apache Hadoopの現在と将来」。両名ともに2014年12月から日本人初のApache Hadoopコミッタとして活躍しています。本カンファレンスの直前にあたる2月4日には,そのコミッタの中でも主要開発者となるプロジェクトマネジメント委員(PMC: Project Management Committee)に選出され,名実ともに国内外でHadoop開発を牽引する存在として知られています。

小沢健史氏(右)と鯵坂明氏

小沢健史氏(右)と鯵坂明氏

YARNから広がる並列処理実行基盤の多様化

講演ではまず小沢氏からHadoopの構成要素について説明がありました。そもそもHadoopが開発された経緯として並列分散処理の高速化へのニーズが挙げられますが,小沢氏は「1台のハードディスクでは1秒あたり100MBの読み書きが限界で,1TBのデータを読み込むには1万秒(約2時間47分)かかっていた。これを1台のディスクではなく並列分散処理を行い,その読み書きのスピードを上げるためにHadoopが開発された」と説明しています。

そしてそのHadoopを構成する要素として

  • Map/Reduce … 並列分散処理を実行するミドルウェア
  • YARN … 計算機リソース管理を実行するミドルウェア
  • HDFS … 大量のデータを保持するミドルウェア

を挙げていますが,ここで注目したいのはYARNの台頭です。もともとHadoopのリソース管理を汎用化するための手段として開発されたYARNですが,現在ではMap/Reduceよりも抽象化された汎用的な実行処理基盤としての役割がクローズアップされています。ことにHadoop 2系が登場してからは,SparkやTezなどMap/Reduce以外のアプリケーションもHadoopの単一クラスタ上で並列実行できる汎用性が高く評価されています。

小沢氏はYARNが普及した要因を「YARNがマスタを立ち上げ,SparkやTezのjarファイル(アプリケーション)を計算機側にコピーするだけで動作できるようになった。つまり得意なことを得意なものにやらせる実行基盤が揃ってきた」と説明しています。もちろんYARNもMap/Reduceを起点(SparkやTezでの実行に失敗した場合,Map/Reduceに戻すことができる)にしていますが,YARNがより汎用的に実行基盤をサポートすることで,Hadoopそのものの拡張性や柔軟性,効率性も一段と拡がりを増すことにつながりました。

YARNが並列処理基盤実行の「基盤」

YARNが並列処理基盤実行の「基盤」に

YARNのほかにもこの10年でHadoopの周辺にはさまざまなミドルウェア技術が生まれてきました。小沢氏は前述したTezやSparkのほかに,HBase(NoSQL),Storm(ストリーム処理),Pig(大規模データセットに対する手続き型言語),Oozie(ワークフロースケジューラ),Sqoop(HDFSとRDB間のデータ転送ツール)などを紹介していますが,その数は今後さらに増えていくことが予想されます。

このほか,Hadoopにおける最近の傾向としてはインタフェースとなる処理言語の多様化も見逃せないところです。小沢氏はその特徴として

  • バッチ処理ではSQLに似た言語による記述が主流 … HiveQL,Pig Latin,Spark DataFrameなど
  • バッチ処理とストリーミング処理を透過的に扱えるような言語が登場 … Apache Flink,Google DataFlow
  • 機械学習に特化した高水準言語の登場 … Apache SystemML,Google TesorFlow

といった点を挙げています。「バッチ処理に関してはMap/Reduce APIを叩くのではなく,SQLライクな言語が主流だが,最近ではFlinkのようにバッチ処理とストリーミングを同時に扱える"攻めている言語"もあらわれてきた。またMap/Reduceが扱うリソースはCPU,メモリ,ディスクが中心でGPUやFPGAのように機械学習用で使われるリソースの扱いに長けておらず,したがって機械学習用の言語を扱うことを苦手としている。こうした中,SystemMLのような機械学習言語を高速に実行するためにGPUに特化したミドルウェアも登場しており,たとえばMicrosoftが展開する機械学習基盤の"Catapult"などはその典型。FPGAを用いてトータルスループットを2倍にし,逆にTCOは削減している」(小沢氏)

Map/Reduce同様,YARNも現在はCPUやメモリ,ハードディスクの処理が中心であるため,「GPUやFPGAのようなさまざまなリソースを扱えるような"データセンターOS"へと進化していくことが今後の課題」と小沢氏。YARNの進化は今後のHadoopの成長と普及に直結するだけに,引き続き期待したいところです。

日本のHadoop開発者も増加,コミュニティをさらに盛り上げたい

YARNなどHadoopの実行処理系の話題が中心だった小沢氏につづいて,鯵坂氏はHadoopのファイルシステムであるHDFSのここ1,2年の動向についての説明から開始しました。性能面ではSSDやメモリを適材適所に活用する機能がいくつか追加されており,さらにセキュリティ/運用性の面では,よりきめ細かいアクセス制御を実現するPOSIX ACLs,データの暗号化,ローリングアップグレードなどが実装され,Hadoop自体の適用範囲を拡げることにつながっています。「YARNと同様,ハードウェアの進化に応じてHDFSもさらなる進化を遂げていく」(鯵坂氏)

ハードの進化につれて広がるHDFS/Hadoopの活用範囲

ハードの進化につれて広がるHDFS/Hadoopの活用範囲

鯵坂氏は続けてHadoopコミュニティの活動についても触れています。コミュニティ活動を可視化する手段のひとつとして,鯵坂氏は自身のブログで毎年,コミットログやJIRAのログを集計した結果を発表していますが,その2015年の結果から引用し,変更コード行数が最も多い貢献企業を紹介しています。1位はダントツでHortonworks(23万7619行),そしてHuaway(8万2381行),Cloudera(6万2887行)と続き,4位にはNTTおよびNTTデータ(6万2445行)がランクインしているところが目を引きます。また,Hadoopコミッタを3名(小沢氏,鯵坂氏,岩崎正剛氏)輩出しているNTT/NTTデータに加え,Yahoo! Japanが13位(3413行)に入っていることも,日本のHadoopコミュニティが拡がりつつあることのあらわれといえるでしょう。

「Hadoopをより良くしていきたい,というのは我々二人の共通の願い」として,最後に両氏はHadoopを使いやすくするために自分たちができることとして

  • メンテナンスリリースの継続
  • Java 8および9への対応
  • 新しいハードウェアを意識した高速な処理基盤の実現
  • Hadoopの開発者をもっと増やしたい,コミュニティを盛り上げたい

といった項目を挙げています。とくにメンテナンスリリースの継続は重要なポイントで,開発コミュニティは新バージョンの機能追加や改善にフォーカスするだけではなく,メンテナンスリースの継続にも力を入れるべき,という指摘は以前からなされています。現在,2.6系と2.7系のメンテナンスはつづいていますが「がんばればもう2バージョンくらいはいけるのではないか」と鯵坂氏。メンテナンスリリースの継続はエンタープライズ企業でのHadoop採用にも大きく関わってくる分野なので,引き続き注目されそうです。

「SparkやTezなど新しい分散処理基盤が登場し,Hadoopは埋もれがちのように見えるが,Hadoopはハードウェアの進化に追従するかたちで着実に進化を続けている。また,日本でもYARNが確実に普及している。日本のHadoop開発者も増えているので,コミュニティをさらに盛り上げていきたい。みなさんもぜひHadoopを使ってコミュニティにフィードバックしてほしい」と講演を結んだ小沢氏と鯵坂氏。日本のHadoopコミュニティの中心人物として,2016年は国内外でのさらなるチャレンジに期待がかかります。

コミュニティとともにさらなる進化を続けたい

コミュニティとともにさらなる進化を続けたい

著者プロフィール

五味明子(ごみあきこ)

IT系の出版社で編集者としてキャリアを積んだ後,2011年からフリーランスライターに。フィールドワークはオープンソースやクラウドコンピューティング,データアナリティクスなどエンタープライズITが中心。海外カンファレンス取材多め。Twitter(@g3akk)やFacebookで日々IT情報を発信中。

北海道札幌市出身/東京都立大学経済学部卒。

コメント

コメントの記入