施策デザインのための機械学習入門
〜データ分析技術のビジネス活用における正しい考え方

[表紙]施策デザインのための機械学習入門 〜データ分析技術のビジネス活用における正しい考え方

紙版発売
電子版発売

A5判/320ページ

定価3,278円(本体2,980円+税10%)

ISBN 978-4-297-12224-9

電子版

→学校・法人一括購入ご検討の皆様へ

書籍の概要

この本の概要

予測に基づいた広告配信や商品推薦など,ビジネス施策の個別化や高性能化のために機械学習を利用することが一般的になってきています。その一方で,多くの機械学習エンジニアやデータサイエンティストが,手元のデータに対して良い精度を発揮する予測モデルを得たにもかかわらず,実際のビジネス現場では望ましい結果を得られないという厄介で不可解な現象に直面しています。実はこの問題は,機械学習の実践において本来必要なはずのステップを無視してしまうことに起因すると考えられます。機械学習を用いてビジネス施策をデザインする際に本来踏むべき手順を無視して予測精度の改善だけを追い求めると,「解くべき問題の誤設定」や「バイアス」といった落とし穴に気づかぬうちにハマってしまうのです。

この問題を解決するためには,機械学習のビジネス応用において必要となる前提条件を着実にクリアしなくてはなりません。しかし多くの現場では,「学習」や「予測精度」などに関する手法やテクニックのみに注目してしまう傾向があり,「機械学習にどのような問題を解かせるべきなのか」「実環境と観測データの間の乖離(バイアス)の問題にどのように対処すべきか」といった効果的なビジネス施策をデザインするために重要な観点が軽視されがちです。機械学習をビジネス施策に活かすための前提が整えられていないにもかかわらず,発展知識を身に付けたり論文の内容をそのまま実装したところで,望ましい結果を継続的に得ることは難しいのです。

本書では,ビジネス施策を自らの手で導くために必要な汎用的な考え方を身につけることを目指します。そのため本書ではまず,機械学習をビジネス現場で活用する際に本来踏まねばならないステップを明文化した汎用フレームワークを導入します。そしてその汎用フレームワークを活用しながら,効果的な施策を自らの手で導出する「施策デザイン」の流れを繰り返し体験します。これまで軽視されてきた「機械学習の威力を担保するために必要な前提のステップ」をフレームワークとして明文化し,データから施策を導くプロセスを自らデザインするという斬新なコンセプトで,ビジネスにおける変幻自在/臨機応変な機械学習の応用を可能にすることが,本書の最終目標です。

こんな方におすすめ

  • 機械学習エンジニア
  • データサイエンティスト
  • 機械学習エンジニア,データサイエンティスト職を志望する学生

目次

はじめに

  • 機械学習の実践における苦悩
  • 機械学習の実践に潜む落とし穴
  • 本書のアプローチ
  • 本書の構成
  • 想定読者と読者に望む姿勢
  • サンプルコードと参考文献
  • 参考文献

1章 機械学習実践のためのフレームワーク

  • 1.1 機械学習の実践に潜む落とし穴
    • 1.1.1 ビジネスにおける機械学習の実践
    • 1.1.2 機械学習の実践に潜む落とし穴
  • 1.2 機械学習実践のためのフレームワーク
    • 1.2.1 KPIを設定する
    • 1.2.2 データの観測構造をモデル化する
    • 1.2.3 解くべき問題を特定する
    • 1.2.4 観測データを用いて解くべき問題を近似する
    • 1.2.5 機械学習モデルを学習する
    • 1.2.6 施策を導入する
  • column 反実仮想機械学習
  • 1.3 本章のまとめ
  • 1.4 参考文献

2章 機械学習実践のための基礎技術

  • 2.1 正確な予測を導く
    • 2.1.1 問題設定の導入(セグメント拡張のためのユーザ属性の予測)
    • 2.1.2 フレームワークに則った予測モデルの学習
    • 2.1.3 データのバイアスに直面するその他のケース
  • 2.2 高性能な意思決定を導く
    • 2.2.1 問題設定の導入(広告画像選択)
    • 2.2.2 フレームワークに則った意思決定モデルの学習
  • column より自由な機械学習モデルの学習
  • column 意思決定モデルの学習や評価に必要な仮定
  • 2.3 Open Bandit Pipelineを用いた実装
    • 2.3.1 Open Bandit Pipelineの紹介
    • 2.3.2 人工データを用いたOBPの基本機能の確認
    • 2.3.3 Open Bandit Datasetを用いた分析
  • 2.4 本章のまとめと発展的な内容の紹介
  • 2.5 参考文献

3章 Explicit Feedbackを用いた推薦システム構築の実践

  • 3.1:Explicit Feedbackを用いた推薦システムの構築
  • 3.2 推薦システムの標準的な定式化と手法
  • 3.3 推薦システムに潜むバイアスの問題
  • 3.4 フレームワークに則った推薦システム構築手順の導出
    • 3.4.1 KPIを設定する
    • 3.4.2 データの観測構造をモデル化する
    • 3.4.3 解くべき問題を特定する
    • 3.4.4 観測データを用いて解くべき問題を近似する
    • 3.4.5 機械学習モデルを学習する
  • 3.5 Pythonによる実装とYahoo! R3データを用いた性能検証
    • 3.5.1 Yahoo! R3データの紹介
    • 3.5.2 Pythonを用いた実装
    • 3.5.3 Yahoo! R3データを用いた性能比較
  • 3.6 本章のまとめと発展的な内容の紹介
  • 3.7 参考文献

4章 Implicit Feedbackを用いた推薦システムの構築

  • 4.1 標準的なランキング学習の枠組み
  • 4.2 フレームワークに則ったランキングシステムの学習
    • 4.2.1 Implicit Feedbackとは
    • 4.2.2 ポジションバイアスを考慮した学習手順の導出
    • 4.2.3 アイテム選択バイアスを考慮した学習手順の導出
  • 4.3 PyTorchを用いた実装と簡易実験
    • 4.3.1 半人工データの生成
    • 4.3.2 PyTorchを用いた実装
    • 4.3.3 半人工データを用いたIPS推定量の性能検証
  • 4.4 本章のまとめと発展的な内容の紹介
    • 4.4.1 ポジションバイアスパラメータの推定方法
    • 4.4.2 実システムへの応用研究
    • 4.4.3 その他の発展的な話題
  • 4.5 次章に向けて
  • 4.6 省略した計算過程
    • 4.6.1 4.2.2項で用いた数値例に関する計算過程
    • 4.6.2 4.2.3項で用いた数値例に関する計算過程
  • 4.7 参考文献

5章 因果効果を考慮したランキングシステムの構築

  • 5.1:本章で扱う発展的な話題
  • 5.2 推薦枠経由で観測される目的変数を最大化する
  • 5.3 プラットフォーム全体で観測される目的変数を最大化する
  • 5.4 PyTorchを用いた実装と簡易実験
    • 5.4.1 半人工データの生成
    • 5.4.2 PyTorchを用いた実装
    • 5.4.3 半人工データを用いた性能検証
  • 5.5 本章のまとめと発展的な内容の紹介
  • 5.6 参考文献

付録A 演習問題

  • A.1 2章の内容に関連する演習問題
  • A.2 3章の内容に関連する演習問題
  • A.3 4章の内容に関連する演習問題
  • A.4 5章の内容に関連する演習問題

あとがき

著者プロフィール

齋藤優太 (さいとうゆうた)

2021年に,東京工業大学で経営工学学士号を取得。大学在学中から,因果推論と機械学習の融合技術(反実仮想機械学習)や,バイアスを含むユーザの行動ログに基づく推薦・ランキング学習に関する研究を行う。その過程で,ICML・RecSys・SIGIR・WSDM・SDMなどの機械学習・データマイニング領域におけるトップレベル国際会議にて査読付論文を発表。2020年には,半熟仮想株式会社を共同創業。以降当社の科学統括として,複数の国内テクノロジー企業との共同研究の取りまとめを担当,専門技術の社会実装や大規模実証研究に取り組み,その研究成果の一部が日本オープンイノベーション大賞・内閣総理大臣賞を受賞。2021年秋からは,Cornell University, Department of Computer Science (Ph.D. program)に進学し,関連領域の研究を継続する。
Twitter:@usait0
Website:usaito.github.io


安井翔太(やすいしょうた)

2013年にNorwegian School of Economicsにて経済学修士号を取得しサイバーエージェント入社。入社後は広告代理店にて広告効果検証等を行い,その後2015年にアドテクスタジオへ異動。以降はDMP・DSP・SSPと各種のアドテクプロダクトにおいて,機械学習に関する業務やデータを元にした意思決定のコンサルティングを担当。現在はAILabの経済学チームのリーダーとして経済学と機械学習の融合に関する研究を行う一方で,Data Science Centerの副所長として社内のデータサイエンスプロジェクトのコンサルティングも担当。著書に『効果検証入門』(技術評論社, 2020)がある。