図解即戦力シリーズ図解即戦力
ビッグデータ分析のシステムと開発がこれ1冊でしっかりわかる教科書

書籍の概要

この本の概要

近年はビッグデータを分析し,ビジネスに活かすのは当たり前の時代となりました。今後IoTやAIなどの活用が期待される中,データを分析するだけではなく,データを集める・溜める・活用することが重要になってきています。本書は一般的なインターネット事業を展開する企業において,ビッグデータ分析システムをしっかり本番システム化する基本知識を図とともにわかりやすく解説しています。

こんな方におすすめ

  • ビッグデータの全体像を理解し,ビジネスや開発に応用したい人

目次

1章 ビッグデータ分析の全体像

  • 01 ビッグデータと分散処理
     〜インターネットの普及によるデータ量の増加〜
  • 02 非構造化データの増加と機械学習
     〜テキスト,音声,画像データなどの分析〜
  • 03 ビッグデータ分析システム
     〜分散処理と機械学習を駆使してデータを利益に変える〜
  • 04 企業のビッグデータ活用段階
     〜ビッグデータ分析はスモールスタートで始める〜
  • 05 ビッグデータ分析を活用するための三つの役割
     〜データビジネス,サイエンス,そしてエンジニアリング〜
  • 06 エンジニアリングの希少価値
     〜実証実験はできても本番システム化できていない〜

2章 
ビッグデータ分析システムのアーキテクチャ

  • 01 アーキテクチャの全体像
     〜データの収集・蓄積・活用〜
  • 02 データの生成・収集
     〜事業システムで生成し分析システムに収集する〜
  • 03 データ蓄積
     〜データレイクとデータウェアハウス〜
  • 04 データ活用
     〜データを意思決定・利益向上に利用〜

3章
分散処理の基礎

  • 01 ボトルネック解析
     〜性能問題対応の基本〜
  • 02 ボトルネック以外の性能問題考慮点
     〜メモリの枯渇,ボトルネックがないのに遅い〜
  • 03 分散ストレージ
     〜ディスクのボトルネックを解消する技術〜
  • 04 分散計算
     〜プロセッサのボトルネックを解消する技術〜
  • 05 分散システムのネットワーク
     〜ネットワークのボトルネックにならないために〜
  • 06 リソースマネージャ
     〜分散処理を支えるリソース管理〜
  • 07 分散処理の作り方
     〜Hadoop,自前開発,クラウドサービス〜

4章
機械学習の基礎

  • 01 機械学習
     〜数値ベクトルに変換されたデータを処理する関数〜
  • 02 データの準備と前処理
     〜機械学習の開発プロセス(前編)〜
  • 03 モデル推定とシステム化
     〜機械学習の開発プロセス(中編)〜
  • 04 本番リリースとエンハンス
     〜機械学習の開発プロセス(後編)〜
  • 05 ディープラーニング
     〜機械学習ブームの火付け役〜
  • 06 機械学習ツール
     〜エンジニアでも知っておくべき主要ツールを紹介〜
  • 07 サイエンスとエンジニアリングの役割分担
     〜システム化やデータ準備等行うことはたくさんある〜

5章
ビッグデータの収集

  • 01 バッチデータ収集とストリームデータ収集
     〜データ収集の種類〜
  • 02 ファイルデータ収集とファイルフォーマット
     〜ファイル形式のデータを収集する〜
  • 03 SQLによるデータ収集
     〜データベースからのデータ収集(前編)〜
  • 04 データ出力や更新ログ同期によるデータ収集
     〜データベースからのデータ収集(後編)〜
  • 05 APIデータ収集とスクレイピング
     〜その他のバッチデータ収集〜
  • 06 バッチデータ収集の作り方
     〜ETL製品を利用するか自前で作るか〜
  • 07 分散キューとストリーム処理
     〜ストリームデータ収集の全体像〜
  • 08 ストリームデータ収集における分散キュー
     〜分散キューの特性を理解する〜
  • 09 プロデューサー,分散キュー,コンシューマー
     〜ストリームデータ収集の作り方〜
  • 10 データ構造変更対応
     〜データ構造はビジネスの成長とともに変わる〜

6章
ビッグデータの蓄積

  • 01 データレイクとデータウェアハウス
     〜生データと分析用のデータは別に用意する〜
  • 02 アナリティックDB
     〜オペレーショナルDBとアナリティックDBの違い〜
  • 03 列指向フォーマット
     〜列方向にデータを圧縮して分析処理を高速化する技術〜
  • 04 SQL on Hadoop
     〜アナリティックDBの選び方(前編)〜
  • 05 DWH製品
     〜アナリティックDBの選び方(後編)〜

7章
ビッグデータの活用

  • 01 データマート
     〜目的別に加工されたデータ〜
  • 02 アドホック分析
     〜自由にデータを分析して意思決定する〜
  • 03 アドホック分析環境の構築
     〜データ利用者サポートやリソース管理が必要〜
  • 04 データ可視化
     〜誰でもデータをもとに意思決定できるようにする〜
  • 05 データアプリケーション
     〜インターネット事業会社での活用事例〜

8章
メタデータ管理

  • 01 全体像と静的メタデータ
     〜メタデータ管理の全体像(前編)〜
  • 02 動的メタデータとメタデータ管理実現方法
     〜メタデータ管理の全体像(後編)〜
  • 03 データ構造管理
     〜どのように定義されたデータか〜
  • 04 データリネージ管理
     〜そのデータはどこから来てどこに行くのか〜
  • 05 データ鮮度管理
     〜そのデータはいつ時点のデータなのか〜

著者プロフィール

渡部徹太郎(わたなべてつたろう)

東京工業大学大学院 情報理工学研究科にてデータ工学を研究。株式会社野村総合研究所にて大手証券会社向けのシステム基盤を担当し,その後はオープンソース技術部隊にてオープンソースミドルウェア全般の技術サポート・システム開発を担当。その後,株式会社リクルートテクノロジーズに転職し,リクルート全社の横断データ分析基盤のリーダーをする傍ら,東京大学での非常勤講師やビッグデータ基盤のコンサルティングを実施。また,日本AWSユーザー会のビッグデータ支部を設立した。現在は,JapanTaxi株式会社にてデータプラットフォームを担当している。代表著書は「RDB技術者のためのNoSQLガイド」。