施策デザインのための機械学習入門
〜データ分析技術のビジネス活用における正しい考え方
2021年8月4日紙版発売
2021年7月30日電子版発売
齋藤優太,安井翔太 著,株式会社ホクソエム 監修
A5判/336ページ
定価3,278円(本体2,980円+税10%)
ISBN 978-4-297-12224-9
書籍の概要
この本の概要
予測に基づいた広告配信や商品推薦など,ビジネス施策の個別化や高性能化のために機械学習を利用することが一般的になってきています。その一方で,多くの機械学習エンジニアやデータサイエンティストが,手元のデータに対して良い精度を発揮する予測モデルを得たにもかかわらず,実際のビジネス現場では望ましい結果を得られないという厄介で不可解な現象に直面しています。実はこの問題は,機械学習の実践において本来必要なはずのステップを無視してしまうことに起因すると考えられます。機械学習を用いてビジネス施策をデザインする際に本来踏むべき手順を無視して予測精度の改善だけを追い求めると,「解くべき問題の誤設定」や「バイアス」といった落とし穴に気づかぬうちにハマってしまうのです。
この問題を解決するためには,機械学習のビジネス応用において必要となる前提条件を着実にクリアしなくてはなりません。しかし多くの現場では,「学習」や「予測精度」などに関する手法やテクニックのみに注目してしまう傾向があり,「機械学習にどのような問題を解かせるべきなのか」「実環境と観測データの間の乖離(バイアス)の問題にどのように対処すべきか」といった効果的なビジネス施策をデザインするために重要な観点が軽視されがちです。機械学習をビジネス施策に活かすための前提が整えられていないにもかかわらず,発展知識を身に付けたり論文の内容をそのまま実装したところで,望ましい結果を継続的に得ることは難しいのです。
本書では,ビジネス施策を自らの手で導くために必要な汎用的な考え方を身につけることを目指します。そのため本書ではまず,機械学習をビジネス現場で活用する際に本来踏まねばならないステップを明文化した汎用フレームワークを導入します。そしてその汎用フレームワークを活用しながら,効果的な施策を自らの手で導出する「施策デザイン」の流れを繰り返し体験します。これまで軽視されてきた「機械学習の威力を担保するために必要な前提のステップ」をフレームワークとして明文化し,データから施策を導くプロセスを自らデザインするという斬新なコンセプトで,ビジネスにおける変幻自在/臨機応変な機械学習の応用を可能にすることが,本書の最終目標です。
こんな方におすすめ
- 機械学習エンジニア
- データサイエンティスト
- 機械学習エンジニア,データサイエンティスト職を志望する学生
この書籍に関連する記事があります!
- 第2回 実務における機械学習の解釈手法と因果推論の位置づけ
- 2021年8月に発売された『機械学習を解釈する技術』の著者である森下光之助氏と『施策デザインのための機械学習入門』を共著した齋藤優太氏,安井翔太氏の3人が集まり,執筆の経緯や書籍への想いについて3回にわたって語る第2回。
- 第3回 研究を実務に活かすには ―執筆陣がお勧めする書籍の「使いどころ」
- 2021年8月に発売された『機械学習を解釈する技術』の著者である森下光之助氏と『施策デザインのための機械学習入門』を共著した齋藤優太氏,安井翔太氏の3人が集まり,執筆の経緯や書籍への想いについて語る,今回はその最終回です。
目次
はじめに
- 機械学習の実践における苦悩
- 機械学習の実践に潜む落とし穴
- 本書のアプローチ
- 本書の構成
- 想定読者と読者に望む姿勢
- サンプルコードと参考文献
- 参考文献
1章 機械学習実践のためのフレームワーク
- 1.1 機械学習の実践に潜む落とし穴
- 1.1.1 ビジネスにおける機械学習の実践
- 1.1.2 機械学習の実践に潜む落とし穴
- 1.2 機械学習実践のためのフレームワーク
- 1.2.1 KPIを設定する
- 1.2.2 データの観測構造をモデル化する
- 1.2.3 解くべき問題を特定する
- 1.2.4 観測データを用いて解くべき問題を近似する
- 1.2.5 機械学習モデルを学習する
- 1.2.6 施策を導入する
- column 反実仮想機械学習
- 1.3 本章のまとめ
- 1.4 参考文献
2章 機械学習実践のための基礎技術
- 2.1 正確な予測を導く
- 2.1.1 問題設定の導入(セグメント拡張のためのユーザ属性の予測)
- 2.1.2 フレームワークに則った予測モデルの学習
- 2.1.3 データのバイアスに直面するその他のケース
- 2.2 高性能な意思決定を導く
- 2.2.1 問題設定の導入(広告画像選択)
- 2.2.2 フレームワークに則った意思決定モデルの学習
- column より自由な機械学習モデルの学習
- column 意思決定モデルの学習や評価に必要な仮定
- 2.3 Open Bandit Pipelineを用いた実装
- 2.3.1 Open Bandit Pipelineの紹介
- 2.3.2 人工データを用いたOBPの基本機能の確認
- 2.3.3 Open Bandit Datasetを用いた分析
- 2.4 本章のまとめと発展的な内容の紹介
- 2.5 参考文献
3章 Explicit Feedbackを用いた推薦システム構築の実践
- 3.1:Explicit Feedbackを用いた推薦システムの構築
- 3.2 推薦システムの標準的な定式化と手法
- 3.3 推薦システムに潜むバイアスの問題
- 3.4 フレームワークに則った推薦システム構築手順の導出
- 3.4.1 KPIを設定する
- 3.4.2 データの観測構造をモデル化する
- 3.4.3 解くべき問題を特定する
- 3.4.4 観測データを用いて解くべき問題を近似する
- 3.4.5 機械学習モデルを学習する
- 3.5 Pythonによる実装とYahoo! R3データを用いた性能検証
- 3.5.1 Yahoo! R3データの紹介
- 3.5.2 Pythonを用いた実装
- 3.5.3 Yahoo! R3データを用いた性能比較
- 3.6 本章のまとめと発展的な内容の紹介
- 3.7 参考文献
4章 Implicit Feedbackを用いた推薦システムの構築
- 4.1 標準的なランキング学習の枠組み
- 4.2 フレームワークに則ったランキングシステムの学習
- 4.2.1 Implicit Feedbackとは
- 4.2.2 ポジションバイアスを考慮した学習手順の導出
- 4.2.3 アイテム選択バイアスを考慮した学習手順の導出
- 4.3 PyTorchを用いた実装と簡易実験
- 4.3.1 半人工データの生成
- 4.3.2 PyTorchを用いた実装
- 4.3.3 半人工データを用いたIPS推定量の性能検証
- 4.4 本章のまとめと発展的な内容の紹介
- 4.4.1 ポジションバイアスパラメータの推定方法
- 4.4.2 実システムへの応用研究
- 4.4.3 その他の発展的な話題
- 4.5 次章に向けて
- 4.6 省略した計算過程
- 4.6.1 4.2.2項で用いた数値例に関する計算過程
- 4.6.2 4.2.3項で用いた数値例に関する計算過程
- 4.7 参考文献
5章 因果効果を考慮したランキングシステムの構築
- 5.1:本章で扱う発展的な話題
- 5.2 推薦枠経由で観測される目的変数を最大化する
- 5.3 プラットフォーム全体で観測される目的変数を最大化する
- 5.4 PyTorchを用いた実装と簡易実験
- 5.4.1 半人工データの生成
- 5.4.2 PyTorchを用いた実装
- 5.4.3 半人工データを用いた性能検証
- 5.5 本章のまとめと発展的な内容の紹介
- 5.6 参考文献
付録A 演習問題
- A.1 2章の内容に関連する演習問題
- A.2 3章の内容に関連する演習問題
- A.3 4章の内容に関連する演習問題
- A.4 5章の内容に関連する演習問題
あとがき
この本に関連する書籍
-
改訂新版[エンジニアのための]データ分析基盤入門<基本編> データ活用を促進する! プラットフォーム&データ品質の考え方
システムとデータの両面にスポットを当て,データ分析基盤の整備/運用/活用の指針をまとめた入門書。 データ分析の中心にある「データ分析基盤」を取り巻く環境は,大...
-
反実仮想機械学習 〜機械学習と因果推論の融合技術の理論と実践
反実仮想(Counterfactual)─ 起こり得たけれども実際には起こらなかった状況 ─ に関する正確な情報を得ることは,機械学習や意思決定最適化の応用において必要不可欠で...
-
因果推論入門 〜ミックステープ:基礎から現代的アプローチまで
因果推論とは,ある要因が何を(どれくらい)引き起こしたのかを判断するためのツールです。本書は,因果推論に関する最近までの進展をまとめ,学生や実務家を対象とし...
-
評価指標入門 〜データサイエンスとビジネスをつなぐ架け橋
「評価指標でXXXという最高のスコアが出た!」と喜び勇んで,機械学習モデルが出力してくる予測結果をもとにビジネスを運用したとします。 ところが,ビジネス上のKPIと...
-
機械学習を解釈する技術 〜予測力と説明力を両立する実践テクニック
機械学習の研究開発が急速な勢いで進んでいます。理論研究はもちろん,機械学習手法が実装されたオープンソースのパッケージ開発も進み,それらを実務で利用するための...
-
データ活用のための数理モデリング入門
データが価値を生み出す資源として脚光を浴び,ソフトウェアで手軽にデータ分析ができる時代を迎えました。一般の企業/組織では,機械学習や統計モデリングなどの数理...
-
効果検証入門 ~正しい比較のための因果推論/計量経済学の基礎
ビジネスで利用されるデータの多くは,その施策の意思決定を行う人物や組織の目的にそった活動の延長上で作られています。具体的には,DM送付などの広告施策であれば,...