[エンジニアのための]データ分析基盤入門 データ活用を促進する! プラットフォーム&データ品質の考え方

[表紙][エンジニアのための]データ分析基盤入門 データ活用を促進する! プラットフォーム&データ品質の考え方

紙版発売
電子版発売

B5変形判/272ページ

定価2,992円(本体2,720円+税10%)

ISBN 978-4-297-12724-4

電子版

→学校・法人一括購入ご検討の皆様へ

書籍の概要

この本の概要

システムとデータの両面にスポットを当て,データ分析基盤の整備/運用/活用の指針をまとめた入門書。

データ分析の中心にある「データ分析基盤」を取り巻く環境は,大きく変わりました。機械学習/ディープラーニング,マーケティング,需給予測,不正検知を筆頭にデータ利用が多角化し,データ分析基盤に求められる役割も多様化が進んでいます。

本書では,データ分析基盤の「今」に焦点を合わせ,基本用語の整理から歴史,クラウドをはじめとしたインフラ,主要な技術スタック,システムモデル,データドリブンのための可視化&測定術まで徹底解説。

合わせて,長期視点に立ったユーザー中心の運用に欠かせない「セルフサービス」「SSoT」に基づいたルール作り,それらを実現するためのゾーン/タグ管理,メタデータ管理,データの品質管理も平易にまとめました。

広くデータ分析基盤に関わるエンジニア/ユーザーの方々へ,ユーザーが自然と集まり,データ活用を促進するシステムの実現のために,実践で活かせる考え方をお届けします。

こんな方におすすめ

  • データ活用のために,データ分析基盤の開発に携わっているエンジニア
  • データ分析基盤を利用して分析を行い,より良いデータ活用環境を実現したいとお考えのユーザーの方々
  • データ分析基盤に関心をお持ちのインフラエンジニア,プログラマ,データ分析者

この書籍に関連する記事があります!

データ分析基盤ってなんだろう データ活用の基本的な流れを知ろう
「データ分析をする」「機械学習を行う」という現在身近に聞かれる言葉の裏側を支えているのがデータ分析基盤(data analytics platform,data platform for analytics)です。

本書のサンプル

本書の紙面イメージは次のとおりです。画像をクリックすることで拡大して確認することができます。

サンプル画像1

サンプル画像2

サンプル画像3

サンプル画像4

サンプル画像5

目次

第1章 [入門]データ分析基盤 データ分析基盤を取り巻く「人」「技術」「環境」

  • 1.1 データ分析基盤の変遷 多様化を受け入れるために進化する
  • 1.2 処理基盤/クラスターの変遷 よりマネージレスにしてコストを減らし,より本来の業務へ集中する時代
  • 1.3 データの変遷 ExcelからWeb,IoT,そして何でもあり(!?)へ
  • 1.4 データ分析基盤に関わる人の変遷 データにまつわる多様な人材
  • 1.5 データへの価値観の変化 データ品質の重要度が高まってきた
  • 1.6 データにおける開発の変遷 複雑化するプロダクトと人の関係
  • 1.7 本章のまとめ

第2章 データエンジニアリングの基礎知識 4つのレイヤー

  • 2.1 データエンジニアリングの基本 ポイントと本書内の関連章について
  • 2.2 データの世界のレイヤー データ分析基盤の世界を俯瞰する
  • 2.3 コレクティングレイヤー データを集める
  • 2.4 プロセシングレイヤー データを変換する
  • 2.5 ストレージレイヤー データやメタデータを貯蔵する
  • 2.6 アクセスレイヤー データ分析基盤と外の世界との連携
  • 2.7 本章のまとめ

第3章 データ分析基盤の管理&構築 セルフサービス,SSoT,タグ,ゾーン,メタデータ管理

  • 3.1 セルフサービスの登場 全員参加時代への移行期
  • 3.2 SSoT データは1ヵ所に集めよう
  • 3.3 データ管理デザインパターン ゾーンとタグ
  • 3.4 データの管理とバックアップ データ整理と,もしものときの準備
  • 3.5 データのアクセス制御 ほど良いアクセス権限の適用
  • 3.6 One Size Fits All問題 デカップリングで数々の問題を解決しよう
  • 3.7 データのライフサイクルマネジメント 不要なデータを残さないために
  • 3.8 メタデータとデータ品質による管理 データを知る基本ツール
  • 3.9 ハイブリット構成 ハイブリッドが抱える問題
  • 3.10 本章のまとめ

第4章 データ分析基盤の技術スタック データソースからアクセスレイヤー,クラスター,ワークフローエンジンまで

  • 4.1 データ分析基盤の技術スタック 全体像を俯瞰する
  • 4.2 データ分析基盤のためのクラスター選択 無理な利用にも耐えられる必要がある
  • 4.3 コレクティングレイヤーの技術スタック セルフサービス時代のデータの取り込み
  • 4.4 プロセシングレイヤーの技術スタック データ変換を行うレイヤー
  • 4.5 ワークフローエンジン データ取り込みと変換を統括する
  • 4.6 ストレージレイヤーの技術スタック データの保存方法
  • 4.7 アクセスレイヤー構築の技術スタック セルフサービス時代のユーザーへのデータ提供
  • 4.8 アクセス制御 アクセスレイヤーに対するアクセス制御
  • 4.9 本章のまとめ

第5章 メタデータ管理 データを管理する「データ」の重要性

  • 5.1 データより深いメタデータの世界 データは氷山の一角
  • 5.2 メタデータとデータ 3つのメタデータを整理/整備しよう
  • 5.3 データプロファイリング データの状態を見る
  • 5.4 データカタログ 手元にないメタデータはカタログ化しよう
  • 5.5 データアーキテクチャ リネージュ,プロバナンス。メタデータの総合力
  • 5.6 本章のまとめ

第6章 データマート&データウェアハウスとデータ整備

  • 6.1 データを整備するためのモデル DIKWモデル
  • 6.2 データマートの役割 「Data」を整備して知恵の創出をサポートする
  • 6.3 スキーマ設計 データに関するルールを設計する
  • 6.4 データマートの生成サポート コミュニケーションの省略&活用
  • 6.5 データマートのプロパゲーション メタデータやルールの作成
  • 6.6 ストリーミングとデータマート 瞬時にKnowledge化する
  • 6.7 本章のまとめ

第7章 データ品質管理 質の高いデータを提供する

  • 7.1 データ品質管理の基礎 データ蓄積から次の段階へ進む
  • 7.2 データの劣化 データは放置するだけで劣化する
  • 7.3 データ品質テスト 劣化に気づくための品質チェック
  • 7.4 メタデータ品質 生産性を向上させるために
  • 7.5 データ品質を向上させる 品質テストの結果を活かす
  • 7.6 本章のまとめ

第8章 データ分析基盤から始まるデータドリブン データ分析基盤の可視化&測定

  • 8.1 データ分析基盤とデータドリブン エンジニアもデータドリブンに行こう
  • 8.2 データドリブンを実現するための準備 データ分析基盤のPDCAと数値
  • 8.3 KPIをどのように開発に活かすのか データ分析基盤の「コスト削減KGI」の例
  • 8.4 データ分析基盤観点のKGI/(CSF)/KPI 改善の着眼点
  • 8.5 本章のまとめ

Appendix [ビッグデータでも役立つ]RDB基礎講座

  • A.1 データベースとは何か? 検索,更新,制約機能を持った入れ物
  • A.2 RDBの基本 データベースの基本を振り返る
  • A.3 RDBにおけるアーキテクチャ RDBの設計
  • A.4 Appendixのまとめ

著者プロフィール

斎藤友樹(さいとうゆうき)

SIerで官公庁,年金,広告などのシステムの要件定義〜保守運用まで,SEやマネージャーとしてフロントエンド〜サーバーサイドまでひととおり経験。現在は,事業会社にてビッグデータ分析に関するシステムの構築,蓄積したデータの活用を行う仕事に従事している。直近では利用者が数千万を超える環境で,ストリーミングデータの処理や一日あたり5000超のETLジョブを捌くデータ分析基盤のアーキテクチャ設計やデータ活用のためのしくみ作りを担当。また,AWSなどのパブリッククラウドイベントの登壇などを通して積極的に情報発信を行っている。