効果検証入門
~正しい比較のための因果推論/計量経済学の基礎
2020年1月18日紙版発売
2019年12月27日電子版発売
安井翔太 著,株式会社ホクソエム 監修
A5判/240ページ
定価2,948円(本体2,680円+税10%)
ISBN 978-4-297-11117-5
書籍の概要
この本の概要
ビジネスで利用されるデータの多くは,その施策の意思決定を行う人物や組織の目的にそった活動の延長上で作られています。具体的には,DM送付などの広告施策であれば,担当者はユーザの反応率を上げるために,反応しやすいであろうユーザに対してのみDMを発送します。ここで発生したデータでDMの効果を計る場合,単純にDMを受け取っているか否かで結果を比較することは,DMの効果以外にも意図的にリストされたユーザの興味や関心を含んでしまうことになります。
データが生まれるプロセスに人の意思が関わる場合,単純な集計では判断ミスとなる可能性があります。わずかな計算の狂いでも後々のビジネスにおいて大きな影響を及ぼすことになるため,バイアスのない状態で効果検証できることが望まれるのです。
本書では「単純に比較すると間違った結論に導くデータ」から,より正しい結果を導くための分析手法と考え方を提供します。計量経済学における効果とは何か? を提示し,RCT(ランダム化比較試験)がいかに理想的な方法かを説明し,RCTができない場合でも因果推論を用いてRCTの再現が可能だということを説明していきます。
こんな方におすすめ
- 効果検証を行う必要のあるエンジニアやデータサイエンティスト
この書籍に関連する記事があります!
- 思い込みによる意思決定の蔓延
- 「効果」という言葉をさまざまな場所で目にするようになっています。
目次
嘘っぱちの効果とそれを見抜けないデータ分析
- 思い込みによる意思決定の蔓延
- 「バイアス」によって見誤る効果
- 因果推論と計量経済学のビジネス適用
- 本書の構成
- 想定する読者
- サンプルコードとサポート
1 章 セレクションバイアスとRCT
- 1.1 セレクションバイアスとは
- 1.1.1 効果
- 1.1.2 潜在的な購買量の差
- 1.1.3 誤った施策の検証
- 1.2 RCT(Randomized Controlled Trial)
- 1.2.1 本当の「効果」と理想的な検証方法
- 1.2.2 RCTによる検証
- 1.3 効果を測る理想的な方法
- 1.3.1 母集団と推定
- 1.3.2 ポテンシャルアウトカムフレームワーク
- 1.3.3 ポテンシャルアウトカムフレームワークによる介入効果の推定
- 1.3.4 平均的な効果
- 1.3.5 平均的な効果の比較とセレクションバイアス
- 1.3.6 介入の決まり方がセレクションバイアスの有無を決める
- 1.3.7 RCTを行った疑似データでの比較
- 1.3.8 有意差検定の概要と限界
- 1.4 R によるメールマーケティングの効果の検証
- 1.4.1 RCTを行ったデータの準備
- 1.4.2 RCTデータの集計と有意差検定
- 1.4.3 バイアスのあるデータによる効果の検証
- 1.5 ビジネスにおける因果推論の必要性
- 1.5.1 RCTの実行にはコストがかかる
- 1.5.2 セレクションバイアスが起きる理由
- 1.5.3 ビジネスにおけるバイアスのループ
- 参考文献
2 章 介入効果を測るための回帰分析
- 2.1 回帰分析の導入
- 2.1.1 単回帰分析
- 2.1.2 効果分析のための回帰分析
- 2.1.3 回帰分析による効果の推定
- 2.1.4 回帰分析における有意差検定
- 2.1.5 Rによるメールマーケティングデータの分析(回帰編)
- 2.1.6 効果検証のための回帰分析で行わないこと
- 2.2 回帰分析におけるバイアス
- 2.2.1 共変量の追加による効果への作用
- 2.2.2 脱落変数バイアス(OVB)
- 2.2.3 R によるOVBの確認
- 2.2.4 OVB が与えてくれる情報
- 2.2.5 Conditional Independence Assumption
- 2.2.6 変数の選び方とモデルの評価
- 2.2.7 Post treatment bias
- 2.3 回帰分析を利用した探索的な効果検証
- 2.3.1 PACESによる学費の割引券配布の概要
- 2.3.2 R による回帰分析の実行
- 2.3.3 私立学校への通学と割引券の利用についての分析
- 2.3.4 割引券は留年を減らしているか?
- 2.3.5 性別による効果差
- 2.3.6 分析のまとめ
- 2.4 回帰分析に関するさまざまな議論
- 2.4.1 予測と効果推定
- 2.4.2 制限被説明変数(Limited Dependent Variable)
- 2.4.3 対数を利用した回帰分析
- 2.4.4 多重共線性
- 2.4.5 パラメータの計算
- 参考文献
3 章 傾向スコアを用いた分析
- 3.1 傾向スコアのしくみ
- 3.1.1 傾向スコアのアイデア
- 3.1.2 傾向スコアの推定
- 3.2 傾向スコアを利用した効果の推定
- 3.2.1 傾向スコアマッチング
- 3.2.2 逆確率重み付き推定
- 3.2.3 より良い傾向スコアとは
- 3.2.4 傾向スコアと回帰分析の比較
- 3.2.5 マッチングとIPW の差
- 3.3 機械学習を利用したメールマーケティング施策の効果推定
- 3.3.1 データの作成
- 3.3.2 RCTと平均の比較
- 3.3.3 傾向スコアを用いた分析
- 3.4 LaLonde データセットの分析
- 3.4.1 NSW の概要とデータの準備
- 3.4.2 RCTによる結果の確認
- 3.4.3 回帰分析による効果の推定
- 3.4.4 傾向スコアによる効果の推定
- 参考文献
4 章 差分の差分法(DID)とCausalImpact
- 4.1 DID(差分の差分法)
- 4.1.1 DID が必要になる状況
- 4.1.2 集計による効果検証とその欠点
- 4.1.3 DID のアイデアを用いた集計分析
- 4.1.4 回帰分析を利用したDID
- 4.1.5 DID における標準誤差
- 4.1.6 平行トレンド仮定(Common Trend Assumption)と共変量
- 4.2 CausalImpact
- 4.2.1 DID の欠点
- 4.2.2 CausalImpactのアイデア
- 4.3 大規模禁煙キャンペーンがもたらすタバコの売上への影響
- 4.3.1 データの準備
- 4.3.2 DID の実装
- 4.3.3 CausalImpactの実装
- 4.3.4 分析結果の比較
- 4.4 不完全な実験を補佐する
- 4.4.1 DID のアイデアを用いた分析が使えないとき
- 参考文献
5 章 回帰不連続デザイン(RDD)
- 5.1 ルールが生み出すセレクションバイアス
- 5.1.1 回帰不連続デザインのしくみ
- 5.1.2 集計によるセレクションバイアスの確認
- 5.2 回帰不連続デザイン(RDD)
- 5.2.1 線形回帰による分析
- 5.2.2 非線形回帰による分析
- 5.2.3 メールによる来訪率の増加効果を分析する
- 5.3 nonparametric RDD
- 5.3.1 nonparametric RDD のしくみ
- 5.3.2 R によるnonparametric RDD の実装
- 5.4 回帰不連続デザインの仮定
- 5.4.1 Continuity of Conditional Regression Functions
- 5.4.2 non-manipulation
- 5.4.3 LATEの妥当性
- 5.5 ビジネスにおける介入割り当てルール
- 5.5.1 ユーザセグメントへの介入
- 5.5.2 Uber による価格変更の分析
- 参考文献
付録 RとRStudioの基礎
- A.1 R およびRStudio のダウンロード
- Rのインストール
- Rの起動と終了
- RStudio のインストール
- A.2 RStudio の基本
- パネルの役割
- プロジェクトと作業ディレクトリ
- A.3 R プログラミングの初歩
- オブジェクト
- ベクトル
- 関数
- データフレーム
- 行列
- パッケージの利用
- 作業(ワーク)スペース
- 因果推論をビジネスにするために
- 因果推論を活用できる環境とは
- より正しい意思決定をするために
- 高次元の共変量を扱うためのR パッケージ
- より強い因果効果を得るために
- 参考文献
- 索引
この本に関連する書籍
-
反実仮想機械学習 〜機械学習と因果推論の融合技術の理論と実践
反実仮想(Counterfactual)─ 起こり得たけれども実際には起こらなかった状況 ─ に関する正確な情報を得ることは,機械学習や意思決定最適化の応用において必要不可欠で...
-
因果推論入門 〜ミックステープ:基礎から現代的アプローチまで
因果推論とは,ある要因が何を(どれくらい)引き起こしたのかを判断するためのツールです。本書は,因果推論に関する最近までの進展をまとめ,学生や実務家を対象とし...
-
評価指標入門 〜データサイエンスとビジネスをつなぐ架け橋
「評価指標でXXXという最高のスコアが出た!」と喜び勇んで,機械学習モデルが出力してくる予測結果をもとにビジネスを運用したとします。 ところが,ビジネス上のKPIと...
-
機械学習を解釈する技術 〜予測力と説明力を両立する実践テクニック
機械学習の研究開発が急速な勢いで進んでいます。理論研究はもちろん,機械学習手法が実装されたオープンソースのパッケージ開発も進み,それらを実務で利用するための...
-
施策デザインのための機械学習入門 〜データ分析技術のビジネス活用における正しい考え方
予測に基づいた広告配信や商品推薦など,ビジネス施策の個別化や高性能化のために機械学習を利用することが一般的になってきています。その一方で,多くの機械学習エン...
-
RとPythonで学ぶ[実践的]データサイエンス&機械学習
本書は野村総合研究所のシステムコンサルティング事業本部で実施している「アナリティクス研修」をベースにした書籍で,「統計的なモデリングとは何か?」「モデルに基...
-
データサイエンティスト養成読本 ビジネス活用編
ビッグデータ,機械学習,人工知能など,データ分析に関連するキーワードを聞かない日はありません。データサイエンティストブームからはや数年,多くの日本の組織がデ...