ビジネスのあらゆるデータを、形式を問わず
- 一貫しないデータ:複数のシステムが同時にデータを書き込むと、処理の途中で不整合なデータが生じてしまう
- 非効率な更新:特定のレコードだけを更新・
削除する場合でも、巨大なファイルを丸ごと書き直す必要がある - 複雑な運用:データの構造
(スキーマ) が変更されると、過去のデータとの互換性を保つための対応が煩雑になる
こうした課題は、データレイクを本格的な
データレイクを「基盤」へと進化させるIceberg
テーブルフォーマットは、データレイク上にある単なるファイルの集まりを、あたかも高性能なデータベースの
- データベースのような信頼性:ACIDトランザクションをサポートしており、安全なデータの読み書きを実現できる
- タイムトラベル機能:
「昨日の15時時点のデータ」 といった要求に即座に応え、誤った更新を元に戻す (ロールバック) ことも容易 - 柔軟なスキーマ進化:カラムの追加やデータ型の変更があっても、データ全体を書き直すことなく柔軟に対応可能
- 圧倒的なパフォーマンス:独自のメタデータを活用しクエリ実行時に不要なファイルの読み込みをスキップすることで、分析速度を向上させられる
また、Icebergの持つ
以上のように、Icebergは現代のデータ基盤における
理論を実践に繋げる、最初の1冊
そんなIcebergを理論だけでなく実践を通して身につけたいエンジニアにおすすめの1冊が
Icebergを中心としたデータ基盤構築の基礎から応用までを体系的に習得することを目的とした本書の何よりの特徴は、Dockerだけで完結する実践的なハンズオン環境にあります。Apache Spark、Apache Flink、Trino、Apache Hive、PyIcebergといった、現場で使われる主要クエリエンジンでのIceberg操作をしっかりと網羅することはもちろん、各種ユースケースに応じた実践的なハンズオンや、AWSでのIcebergの活用、運用管理・
データ基盤構築の