第20回Sparkの設計と実装［1］～登場の背景とデータ処理の特徴

今回から2回に渡って、並列データ処理系のひとつであるSparkについて解説します。まずはじめに、Sparkが開発された経緯を説明し、次にSparkが採用したアプローチを解説します。

プロフィール

猿

NTTデータ　システム技術本部に所属。

オープンソースを軸とした方式技術部隊でHadoopやSparkの導入支援や技術開発，テクニカルサポートに従事するほか，Hadoop／Sparkのコミュニティに参画し開発活動も行っている。2015年6月からApache Sparkのコミッタとして活動中。

第10回日本OSS奨励賞受賞。

山

日本アイ・ビー・エム株式会社を経て，ヤフー株式会社にて分散型全文検索エンジンの研究開発に従事。2008年上期未踏IT人材発掘・育成事業において高性能分散型検索エンジンの開発によりスーパークリエータに認定。現在は東京大学生産技術研究所にて高性能並列データ処理系の研究開発に従事。博士（情報理工学）。