書籍概要

Google Cloudではじめる実践データエンジニアリング入門
[業務で使えるデータ基盤構築]

著者
発売日
更新日

概要

AIやIoTが実用化フェーズに入りつつあるのみならず,デジタルトランスフォーメーション(DX)への注目の高まりによって,事業やサービスを取り巻くデータを分析・活用・管理するためのインフラであるデータ基盤の重要性が増しています。 データ基盤を構築するにあたり,先行する事例から,Google Cloud(Google Cloud Platform, GCP)はデータ領域に強みがある,あるいは,BigQueryは高速に動作するデータウェアハウスである,と聞いたことがある方は多いでしょう。

本書では「データ基盤」そのものを体系的に整理しながら,Google Cloudの各サービスをどのように活用することで実用的なデータ基盤を構築できるか,また発展的なデータ分析ニーズに応えるデータ基盤をどのように設計できるか,といった点について解説しています。 特にGoogle Cloudはマネージドサービスを中心として提供されているため,その特性を正しくとらえることで,最大限の価値を発揮できるようになります。 実際にGoogle Cloudやオンプレミス,他のクラウドサービスを用いたデータ基盤の構築や設計に携わってきた筆者らによる一歩踏み込んだ解説が本書の特徴です。

本書は以下のような方におすすめです。

  • これからデータ基盤の構築に関わる可能性があるエンジニア
  • Google Cloudや他のクラウドサービスを利用しており,これからデータ領域での活用を広げようとしている方

また,すでにGoogle Cloudを利用しているエンジニアやデータ基盤に携わっているエンジニアにとっても,より洗練されたデータ基盤の設計を行うための知識やノウハウを得ることができるでしょう。

本書は近年のビジネス要件の変化からデータ基盤に求められる要件,一般的なデータ基盤のアーキテクチャを紹介した後,Google Cloudでの設計として以下のようなトピックを取り扱います。

  • データウェアハウス
  • データレイク/ETL/ELT
  • データパイプラインマネジメント/データ統合
  • データ基盤のセキュリティとコスト管理(アクセス制御,データ持ち出しの防止,重要データ検知)
  • BI,データの可視化
  • 発展的な分析(地理情報分析,機械学習,リアルタイム分析)

こんな方におすすめ

  • これからデータ基盤の構築に関わる可能性があるエンジニア,Google Cloudや他のクラウドサービスを利用しており,これからデータ領域での活用を広げようとしている方

目次

第1章 データ基盤の概要

  • 1.1 データ基盤に取り組む意義
  • 1.2 データ基盤とは
  • 1.3 Google Cloud上で構築するデータ基盤
  • 1.4 まとめ

第2章 BigQueryのコンセプトと利用方法

  • 2.1 DWHとは
  • 2.2 Googleのデータ処理を支える技術
  • 2.3 BigQueryの内部アーキテクチャを理解する
  • 2.4 DWHとしてのBigQueryの基本操作
  • 2.5 BigQueryユーザー向けのクエリの最適化
  • 2.6 まとめ

第3章 データウェアハウスの構築

  • 3.1 データウェアハウスに求められるさまざまな要件
  • 3.2 高可用性,Disaster Recovery計画
  • 3.3 用途別の影響隔離
  • 3.4 サイジング
  • 3.5 目的環境別の影響隔離
  • 3.6 テーブルを設計する
  • 3.7 データの投入
  • 3.8 バックアップとリストア
  • 3.9 BigQueryにおけるトランザクションとパーティションを用いたDMLの最適化
  • 3.10 DMLをまとめる/パーティションの利用
  • 3.11 外部接続の最適化 - Storage APIの利用とBI Engineの利用
  • 3.12 データマートジョブの設計最適化
  • 3.13 まとめ
  • Column マルチクラウドでのクラウドデータ基盤の利用

第4章 データレイクの構築

  • 4.1 データレイクとは
  • 4.2 Hadoopとは
  • 4.3 Google Cloudで構築するデータレイク
  • 4.4 Google Cloudのおもなデータレイク関連のサービス
  • 4.5 Google Cloudでデータレイクを中心としたデータ分析基盤を構築することのメリット
  • 4.6 オンプレミス環境からGoogle Cloudへのデータレイクの移行
  • 4.7 まとめ

第5章 ETL/ELT処理

  • 5.1 ETL/ELTとは
  • 5.2 ETL/ELT 処理を実施するサンプルシナリオ
  • 5.3 サンプルシナリオ実施用の環境の構築
  • 5.4 BigQueryでのELT
  • 5.5 BigQueryでのETL
  • 5.6 DataflowでのETL
  • 5.7 DataprocでのETL
  • 5.8 サンプルシナリオ実施用の環境の破棄
  • 5.9 その他のETL/ELT処理の実施方法
  • 5.10 ETLとELTの各手法の使い分け
  • 5.11 まとめ
  • Column Apache BeamとDataflow の関係は?

第6章 ワークフロー管理とデータ統合

  • 6.1 Google Cloudのワークフロー管理とデータ統合のためのサービス
  • 6.2 Cloud Composerの特徴
  • 6.3 Cloud Composerでのワークフロー管理
  • 6.4 Cloud Data Fusionの特徴
  • 6.5 Cloud Data Fusionでのワークフロー管理
  • 6.6 Cloud ComposerとCloud Data Fusionの比較と使い分けのポイント
  • 6.7 まとめ
  • Column Google Cloudにおけるジョブオーケストレーションの選択肢

第7章 データ分析基盤におけるセキュリティとコスト管理の設計

  • 7.1 Google Cloud Platformのセキュリティサービス
  • 7.2 Google Cloudのリソース構成とエンタープライズ向けの管理機能
  • 7.3 IAMを利用したBigQueryのアクセス制御
  • 7.4 IAMとAccess Control List(ACL)を利用したCloud Storageのアクセス制御
  • 7.5 VPC Service Controlsを利用したアクセス制御とデータ持ち出し防止
  • 7.6 監査
  • 7.7 Security Command Centerを利用したデータリスクの検知と自動修復
  • 7.8 組織のポリシーサービスの適用
  • 7.9 アクセス管理とコスト管理の設計
  • 7.10 まとめ
  • Column データ暗号化とデータ損失防止

第8章 BigQuery へのデータ集約

  • 8.1 BigQueryへデータ集約を行うメリット
  • 8.2 BigQueryへのデータ集約の方法
  • 8.3 BigQuery Data Transfer Service(BigQuery DTS)
  • 8.4 BigQueryへのデータパイプライン構築
  • 8.5 サービス間連携によるBigQueryへのデータ連携
  • 8.6 まとめ
  • Column BigQueryのデータ取り込み方法の使い分け
  • Column Firebaseを用いたデータ分析の活用方法

第9章 ビジネスインテリジェンス

  • 9.1 BIとBIツール
  • 9.2 コネクテッドシート
  • 9.3 データポータル
  • 9.4 Looker
  • 9.5 BIツールと親和性の高いBigQueryの機能
  • 9.6 まとめ

第10章 リアルタイム分析

  • 10.1 リアルタイム分析とユースケース
  • 10.2 リアルタイム分析基盤に求められるもの
  • 10.3 Google Cloudを利用したリアルタイム分析基盤のアーキテクチャ
  • 10.4 Pub/Sub
  • 10.5 Dataflow
  • 10.6 BigQuery
  • 10.7 リアルタイムタクシーデータを用いたリアルタイム分析基盤の構築
  • 10.8 まとめ
  • Column Dataflow のアーキテクチャと分散処理におけるコンピュート,ストレージ,メモリの分離

第11章 発展的な分析

  • 11.1 Google Cloudによる発展的な分析
  • 11.2 BigQueryによる地理情報分析
  • 11.3 BigQuery上での機械学習
  • 11.4 AutoML Tables
  • 11.5 AI Platformを活用したデータサイエンスと機械学習
  • 11.6 まとめ
  • Column Pub/Subのアーキテクチャ

サポート

現在サポート情報はありません。

商品一覧