Spark
2018年はSpark 2.
Kubernates対応とPython対応の強化
昨今Kubernetesの活用が活発になってきており,
クラウドでのSparkの活用も活発になってきましたが,
PythonユーザにとってはPandas UDF
これまでSpark SQLをPythonから利用する場合,
Structured Streamingの改善
2017年にアルファ版を卒業したStructured Streamingも依然として開発が活発です。とくにContinuous Processingと呼ばれる,
Microbatch Processingでは,
Continuous ProcessingではロングランニングタスクをExecutor上に常駐させることで都度のタスクの配布を回避するほか,
AIを指向したProject Hydrogen,利便性向上が続くSpark SQL
また昨今なにかと
Project Hydrogenでは大きく3つの取り組みが計画されています。
- Barrier Execution Mode
(SPARK-24374) - 分散ディープラーニングなどに求められる,
タスク間の通信や同期を支援する機能 - Optimized Data Exchange
(SPARK-24579) - Sparkとさまざまなディープラーニングフレームワークとの間で効率的にデータ交換を行うためのデータフォーマットの策定など
- Accelerator Aware Scheduling
(SPARK-24615) - GPUやFPGAなど,
利用可能なアクセラレータの種類や数などを考慮したタスクスケジューリングを行う機能
Spark 2.
このほかSpark SQLではハイオーダーファンクション
2019年のSpark
2019年はSpark 3.
主要なものは以下の通りです。
- Java 11対応
- Scala 2.
12対応 - Hadoop 3系対応
- Hive 3系対応
Scala 2.
また現在は実験的導入の扱いとなっているKubernetesサポートについても,
このほかProject Hydrogenは引き続き進められる予定です。Spark 2.