『機械学習を解釈する技術』&『施策デザインのための機械学習入門』著者陣によるクロストーク

第1回 自分にしか書けないものにこだわった ―異色の機械学習書誕生の裏側

この記事を読むのに必要な時間:およそ 4.5 分

2021年8月に発売される『機械学習を解釈する技術』の著者である森下光之助氏と,『施策デザインのための機械学習入門』を共著した齋藤優太氏,安井翔太氏の3人による対談を3回にわたってお届けします。第1回は,書籍執筆のモチベーションのお話から。

それは個人的な興味から始まった

安井:では僕から振ったほうがいいでしょうか。じゃあとりあえず執筆のモチベーションと裏話みたいなところから伺っていきたいのですが。

画像

安井翔太(やすいしょうた)

2013年にNorwegian School of Economicsにて経済学修士号を取得しサイバーエージェント入社。入社後は広告代理店にて広告効果検証等を行い,その後2015年にアドテクスタジオへ異動。以降はDMP・DSP・SSPと各種のアドテクプロダクトにおいて,機械学習に関する業務やデータを元にした意思決定のコンサルティングを担当。現在はAILabの経済学チームのリーダーとして経済学と機械学習の融合に関する研究を行う一方で,Data Science Centerの副所長として社内のデータサイエンスプロジェクトのコンサルティングも担当。著書に『効果検証入門』⁠技術評論社,2020)がある。

森下:しゃべりだしが一番難しいですね。執筆のモチベーションですか……。なんというか,僕は「機械学習でただ予測して,なんだかよくわかんないんだけどまあなんか予測ができます」みたいなのがすごく嫌でした。もともと計量経済学からデータ分析の世界に入ったからかもしれないんですが,なぜそういう予測をしてるんだろうとか,モデルの振る舞いををいろんな視点から確認して,大丈夫そうだということを認識して使いたいなみたいな気持ちがあります。

なので,機械学習は解釈性が低いと思っていたためあまり好きではなかったのですが,あるとき機械学習の解釈性の存在を知って,すごく面白いなと思っていろいろ勉強しました。今はIMLの日本語訳が出たと思うんですけど,当時はわかりやすい日本語の説明や書籍は少なかったので,自分でブログを書いたりとかもしました。そういう発信をしているうちに執筆のお声がけをいただいいたので,ぜひ!という感じで書かせていただいてるという流れです。

画像

森下光之助(もりしたみつのすけ)

東京大学大学院経済学研究科で計量経済学を用いた実証分析を学び,経済学修士号を取得。株式会社グリッドに入社し,機械学習を用いたデータ分析プロジェクトに従事。現在はTVISION INSIGHTS株式会社で執行役員兼データ・テクノロジー本部副本部長。テレビデータの分析,社内データの利活用の促進,データ部門のマネジメントを行っている。

Twitter:@dropout009
ブログ:Dropout
登壇資料:Mitsunosuke Morishita(@dropout009)on Speaker Deck

安井:なるほど。ありがとうございます。予測モデルの妥当性を解釈性から検証するというところをスタート地点にしたんですね。

齋藤:個人的な興味発信で勉強しはじめたという感じなんですか?

画像

齋藤優太(さいとうゆうた)

2021年に,東京工業大学で経営工学学士号を取得。大学在学中から,因果推論と機械学習の融合技術(反実仮想機械学習)や,バイアスを含むユーザの行動ログに基づく推薦・ランキング学習に関する研究を行う。その過程で,ICML・RecSys・SIGIR・WSDM・SDMなどの機械学習・データマイニング領域におけるトップレベル国際会議にて査読付論文を発表。2020年には,半熟仮想株式会社を共同創業。以降当社の科学統括として,複数の国内テクノロジー企業との共同研究の取りまとめを担当,専門技術の社会実装や大規模実証研究に取り組み,その研究成果の一部が日本オープンイノベーション大賞・内閣総理大臣賞を受賞。2021年秋からは,Cornell University,Department of Computer Science(Ph.D. program)に進学し,関連領域の研究を継続する。

Twitter:@usait0
Website:usaito.github.io

森下:もともとは個人的な興味ですね。最初から実務で必要だったというわけではないです。調べるうちに,できることがいろいろわかってきたので,実務に使えそうなものを使い,逆に実務で必要な解釈性を与える手法はないか勉強したりしています。

安井:森下さんの書かれているブログ記事などを読んだ際に,在籍されてる会社的に絶対実務から来ているんだろうなぁって勝手に思ってました。

森下:なるほどなるほど。実務ではそもそもinterpretability(解釈性)の高いモデルを使った方がいいという話も当然あると思っていて,ブラックボックスモデルじゃなくて線形モデル使えばいい,みたいな話も結構あると思いますね。

安井:今回書かれた書籍の中だと,予測モデルのバリデーション以外にも結構いろんな使い方があるよね,といった紹介をされていたと思うんですけれど。本を執筆していく過程で,違う使い方を実務でも始めたりしたんでしょうか? たとえば,書籍の中で因果関係の探索のために使うのが良いんじゃないかと書かれていて,結構面白いなと思ったんですけど。そういう使い方を実際にしたのかなって気になっていて。

森下:それはそうですね。統計モデルを作るときは背後のメカニズムみたいなものを考えて特徴量を吟味したりすると思うんですけども,機械学習モデルを使うときってバーッと特徴量を入れて,それで予測モデルを作ってみる,みたいなことが多いのかなと思っています。で,それを機械学習の解釈手法で実際に解釈してみるとある特徴量の重要度が高いだとか,ある特徴量とアウトカムには一定の関係がありそうだということが分かったりします。ただ,これが必ずしも因果関係を意味するかっていうと,厳密にはそうではないので,因果関係の探索ののために利用する,みたいな使い方がいいんじゃないかと思っています。

安井:なるほど。モチベーションの話からもうちょっと広げてみると,因果関係の話が出てきたと思うんですけど,解釈性の話を書かれてる記事や書籍の中で,因果関係として解釈するのは難しいっていうのを警告しているのは珍しい気がしています。

森下:そうですか。

安井:その感覚が合ってるのかなっていうのと,そこを強調した理由はありますか。

森下:強調した理由といえば,…そうですね,せっかくモデルが何をやってるかをできるだけ正しく理解しようという手法を使っているにもかかわらず,その解釈を間違っているのではあまり良くないと思っています。モデルの限界を知るのと同じように,解釈手法の限界もある程度知っておく必要があると思います。因果推論でも,⁠どういう状況のときに効果を識別できます」みたいな話を理解せずに適当にやっちゃうと良くないという話と一緒だと思います。なので,機械学習の解釈手法についてもある種の限界みたいなものはお伝えしたいなと僕は思っています。

安井:ありがとうございます。

森下:やっぱり根本的な思いとして,因果関係を本当に知りたかったら,因果関係がわかるような手法を直接使えばいいというのがあります。機械学習の解釈手法は,機械学習モデルを作ったときにそれを頑張って解釈しよう,という営みなのかなと思っています。

また,便利なものを紹介したいというのがモチベーションにあったかもしれません。便利なのでみんな使ってみてくださいとか,便利だけど中身よくわからないで使っている人がいるかもしれないので,わかるように説明したいとか。そういうモチベーションがあったと思います。

著者プロフィール

高屋卓也(たかやたくや)

編集者。2002年技術評論社に入社。販売促進部にて書店/取次などの担当を経て編集部に異動。主な担当書籍に『効果検証入門』(2020),『Kaggleで勝つデータ分析の技術』(2019),『前処理大全』(2018),『データサイエンティスト養成読本』などがある。