データ処理の自動化―ワークフローとデータフロー
ビッグデータを活用する一つの方法として,
データウェアハウスを使ったデータの集計だけでは,
ワークフロー―タスクの実行を管理する
複雑なデータ処理は,
このような一連のタスクを実行する仕組みを
ワークフローのタスクは多くのシステムに接続するため,
オープンソースのデータフロー管理ツールには,
表1 オープンソースのワークフロー管理ツール
名称 | 開発元 |
---|---|
Airflow | Airbnb |
Azkaban | |
Digdag | Treasure Data |
Luigi | Spotify |
Oozie | The Apache Software Foundation |
データフロー―データ処理をプログラミングする
機械学習のような複雑なデータ処理では,
「Apache Spark」
データフローのフレームワークでは,
前述のワークフローとは違って,
このようなデータ処理のフレームワークは,
データフローのフレームワークには,
表2 データフローのためのフレームワーク
名称 | 開発元 |
---|---|
Google Cloud Dataflow | |
Apache Spark | The Apache Software Foundation |
Apache Flink | The Apache Software Foundation |
おわりに
従来から用いられてきた