2月8日,
午前中に行われた基調講演に先立ち,
ではこれからのHadoopはどう変わっていくのでしょうか。濱野氏は
つねに変わりゆくHadoop,
Hadoopをより良いものに! 日本人コミッタ2名によるHadoop普及へのチャレンジ
基調講演の最初はNTTソフトウェア イノベーションセンタの小沢健史氏とNTTデータ 基盤システム事業部の鯵坂明氏による
YARNから広がる並列処理実行基盤の多様化
講演ではまず小沢氏からHadoopの構成要素について説明がありました。そもそもHadoopが開発された経緯として並列分散処理の高速化へのニーズが挙げられますが,
そしてそのHadoopを構成する要素として
- Map/
Reduce … 並列分散処理を実行するミドルウェア - YARN … 計算機リソース管理を実行するミドルウェア
- HDFS … 大量のデータを保持するミドルウェア
を挙げていますが,
小沢氏はYARNが普及した要因を
YARNのほかにもこの10年でHadoopの周辺にはさまざまなミドルウェア技術が生まれてきました。小沢氏は前述したTezやSparkのほかに,
このほか,
- バッチ処理ではSQLに似た言語による記述が主流 … HiveQL,
Pig Latin, Spark DataFrameなど - バッチ処理とストリーミング処理を透過的に扱えるような言語が登場 … Apache Flink,
Google DataFlow - 機械学習に特化した高水準言語の登場 … Apache SystemML,
Google TesorFlow
といった点を挙げています。
Map/
日本のHadoop開発者も増加,コミュニティをさらに盛り上げたい
YARNなどHadoopの実行処理系の話題が中心だった小沢氏につづいて,
鯵坂氏は続けてHadoopコミュニティの活動についても触れています。コミュニティ活動を可視化する手段のひとつとして,
「Hadoopをより良くしていきたい,
- メンテナンスリリースの継続
- Java 8および9への対応
- 新しいハードウェアを意識した高速な処理基盤の実現
- Hadoopの開発者をもっと増やしたい,
コミュニティを盛り上げたい
といった項目を挙げています。とくにメンテナンスリリースの継続は重要なポイントで,
「SparkやTezなど新しい分散処理基盤が登場し,