書籍概要

[エンジニアのための]データ分析基盤入門 データ活用を促進する! プラットフォーム&データ品質の考え方

著者
発売日
更新日

概要

システムとデータの両面にスポットを当て,データ分析基盤の整備/運用/活用の指針をまとめた入門書。

データ分析の中心にある「データ分析基盤」を取り巻く環境は,大きく変わりました。機械学習/ディープラーニング,マーケティング,需給予測,不正検知を筆頭にデータ利用が多角化し,データ分析基盤に求められる役割も多様化が進んでいます。

本書では,データ分析基盤の「今」に焦点を合わせ,基本用語の整理から歴史,クラウドをはじめとしたインフラ,主要な技術スタック,システムモデル,データドリブンのための可視化&測定術まで徹底解説。

合わせて,長期視点に立ったユーザー中心の運用に欠かせない「セルフサービス」「SSoT」に基づいたルール作り,それらを実現するためのゾーン/タグ管理,メタデータ管理,データの品質管理も平易にまとめました。

広くデータ分析基盤に関わるエンジニア/ユーザーの方々へ,ユーザーが自然と集まり,データ活用を促進するシステムの実現のために,実践で活かせる考え方をお届けします。

こんな方におすすめ

  • データ活用のために,データ分析基盤の開発に携わっているエンジニア
  • データ分析基盤を利用して分析を行い,より良いデータ活用環境を実現したいとお考えのユーザーの方々
  • データ分析基盤に関心をお持ちのインフラエンジニア,プログラマ,データ分析者

サンプル

samplesamplesamplesamplesample

目次

第1章 [入門]データ分析基盤 データ分析基盤を取り巻く「人」「技術」「環境」

  • 1.1 データ分析基盤の変遷 多様化を受け入れるために進化する
  • 1.2 処理基盤/クラスターの変遷 よりマネージレスにしてコストを減らし,より本来の業務へ集中する時代
  • 1.3 データの変遷 ExcelからWeb,IoT,そして何でもあり(!?)へ
  • 1.4 データ分析基盤に関わる人の変遷 データにまつわる多様な人材
  • 1.5 データへの価値観の変化 データ品質の重要度が高まってきた
  • 1.6 データにおける開発の変遷 複雑化するプロダクトと人の関係
  • 1.7 本章のまとめ

第2章 データエンジニアリングの基礎知識 4つのレイヤー

  • 2.1 データエンジニアリングの基本 ポイントと本書内の関連章について
  • 2.2 データの世界のレイヤー データ分析基盤の世界を俯瞰する
  • 2.3 コレクティングレイヤー データを集める
  • 2.4 プロセシングレイヤー データを変換する
  • 2.5 ストレージレイヤー データやメタデータを貯蔵する
  • 2.6 アクセスレイヤー データ分析基盤と外の世界との連携
  • 2.7 本章のまとめ

第3章 データ分析基盤の管理&構築 セルフサービス,SSoT,タグ,ゾーン,メタデータ管理

  • 3.1 セルフサービスの登場 全員参加時代への移行期
  • 3.2 SSoT データは1ヵ所に集めよう
  • 3.3 データ管理デザインパターン ゾーンとタグ
  • 3.4 データの管理とバックアップ データ整理と,もしものときの準備
  • 3.5 データのアクセス制御 ほど良いアクセス権限の適用
  • 3.6 One Size Fits All問題 デカップリングで数々の問題を解決しよう
  • 3.7 データのライフサイクルマネジメント 不要なデータを残さないために
  • 3.8 メタデータとデータ品質による管理 データを知る基本ツール
  • 3.9 ハイブリット構成 ハイブリッドが抱える問題
  • 3.10 本章のまとめ

第4章 データ分析基盤の技術スタック データソースからアクセスレイヤー,クラスター,ワークフローエンジンまで

  • 4.1 データ分析基盤の技術スタック 全体像を俯瞰する
  • 4.2 データ分析基盤のためのクラスター選択 無理な利用にも耐えられる必要がある
  • 4.3 コレクティングレイヤーの技術スタック セルフサービス時代のデータの取り込み
  • 4.4 プロセシングレイヤーの技術スタック データ変換を行うレイヤー
  • 4.5 ワークフローエンジン データ取り込みと変換を統括する
  • 4.6 ストレージレイヤーの技術スタック データの保存方法
  • 4.7 アクセスレイヤー構築の技術スタック セルフサービス時代のユーザーへのデータ提供
  • 4.8 アクセス制御 アクセスレイヤーに対するアクセス制御
  • 4.9 本章のまとめ

第5章 メタデータ管理 データを管理する「データ」の重要性

  • 5.1 データより深いメタデータの世界 データは氷山の一角
  • 5.2 メタデータとデータ 3つのメタデータを整理/整備しよう
  • 5.3 データプロファイリング データの状態を見る
  • 5.4 データカタログ 手元にないメタデータはカタログ化しよう
  • 5.5 データアーキテクチャ リネージュ,プロバナンス。メタデータの総合力
  • 5.6 本章のまとめ

第6章 データマート&データウェアハウスとデータ整備

  • 6.1 データを整備するためのモデル DIKWモデル
  • 6.2 データマートの役割 「Data」を整備して知恵の創出をサポートする
  • 6.3 スキーマ設計 データに関するルールを設計する
  • 6.4 データマートの生成サポート コミュニケーションの省略&活用
  • 6.5 データマートのプロパゲーション メタデータやルールの作成
  • 6.6 ストリーミングとデータマート 瞬時にKnowledge化する
  • 6.7 本章のまとめ

第7章 データ品質管理 質の高いデータを提供する

  • 7.1 データ品質管理の基礎 データ蓄積から次の段階へ進む
  • 7.2 データの劣化 データは放置するだけで劣化する
  • 7.3 データ品質テスト 劣化に気づくための品質チェック
  • 7.4 メタデータ品質 生産性を向上させるために
  • 7.5 データ品質を向上させる 品質テストの結果を活かす
  • 7.6 本章のまとめ

第8章 データ分析基盤から始まるデータドリブン データ分析基盤の可視化&測定

  • 8.1 データ分析基盤とデータドリブン エンジニアもデータドリブンに行こう
  • 8.2 データドリブンを実現するための準備 データ分析基盤のPDCAと数値
  • 8.3 KPIをどのように開発に活かすのか データ分析基盤の「コスト削減KGI」の例
  • 8.4 データ分析基盤観点のKGI/(CSF)/KPI 改善の着眼点
  • 8.5 本章のまとめ

Appendix [ビッグデータでも役立つ]RDB基礎講座

  • A.1 データベースとは何か? 検索,更新,制約機能を持った入れ物
  • A.2 RDBの基本 データベースの基本を振り返る
  • A.3 RDBにおけるアーキテクチャ RDBの設計
  • A.4 Appendixのまとめ

サポート

補足情報

(2022年4月6日更新)


著者の斎藤 友樹氏によるサポートページは,以下のとおりです。

https://yk-st.github.io/bigdataplatform_and_engineering_book/

商品一覧