Sparkの2016年は,
バージョン2.
Sparkの特徴のおさらい
2016年のSparkの話に入る前に,
まず
もう一点が
- RDDと呼ばれるデータ構造の導入によるデータの抽象化と,
データ処理を記述するのに理解しやすいAPIの整備 - 開発言語のサポート,
特にデータ分析界隈で利用者が多いPython対応の開発が進む - 用途別ライブラリの導入:SQL
(Spark SQL), ストリーム処理 (Spark Streaming), 機械学習 (MLlib), グラフ処理 (GraphX) - インタラクティブシェルの導入:データ分析の現場でニーズが高い試行錯誤をしやすく
Sparkが単に性能向上を目指す以外に,
2016年のApache Spark
Sparkがもつ
「性能向上」
「使いやすさ」
Project Tungsten
Project Tungstenと呼ばれる
また,
バージョン1.
バージョン2.
1つはWhole Stage Codegenと呼ばれるCodegenの後続となる取り組みです。入力データをスキャンし,
もう1つはVectorizationです。Spark SQLにおいて入力ファイルフォーマットのParquetというカラム指向ファイルフォーマットを利用する際の高速化です。JVMのJITによる最適化を促すことで,
DataFrame/ Dataset
バージョン2.
さらに使いやすさの改善だけでなく,
バージョン1.
バージョン2.