『機械学習を解釈する技術』&『施策デザインのための機械学習入門』著者陣によるクロストーク

第2回 実務における機械学習の解釈手法と因果推論の位置づけ

この記事を読むのに必要な時間:およそ 4.5 分

2021年8月に発売された『機械学習を解釈する技術』の著者である森下光之助氏と『施策デザインのための機械学習入門』を共著した齋藤優太氏,安井翔太氏の3人が集まり,執筆の経緯や書籍への想いについて3回にわたって語る第2回。第1回では書籍執筆の動機から書籍執筆の裏側に話がおよびました。

執筆の裏側をもう少し掘り下げる

安井:森下さんの執筆の裏話は何かありますか?

森下:裏話ですか。執筆に1年半もかかってしまって申し訳ないというところですね。

安井:やっぱり1年半ぐらいかかりましたか。

森下:最初に依頼を受けたのが2019年の12月で,それから1年半かかったんですが,最初は半年ぐらいで終わるんじゃないかと思ってたんですけど,まったくそんなことなくて(笑⁠⁠。実際に執筆している時間だけ考えるとそんなに長くないような気もするんですが,業務をしながら執筆するってすごく難しいことなんだと感じました。

スタートアップ企業に勤めているからなのかもしれないのですが,業務量が安定していなくて,すごく忙しいときもあれば,大型連休でやっと書けるみたいなこともあって。技術評論社さんで執筆されている方は,基本的に本業がある方ばかりだと思いますけど,ほんとにみんなすごいんだなって思いました。

画像

森下光之助(もりしたみつのすけ)

東京大学大学院経済学研究科で計量経済学を用いた実証分析を学び,経済学修士号を取得。株式会社グリッドに入社し,機械学習を用いたデータ分析プロジェクトに従事。現在はTVISION INSIGHTS株式会社で執行役員兼データ・テクノロジー本部副本部長。テレビデータの分析,社内データの利活用の促進,データ部門のマネジメントを行っている。

Twitter:@dropout009
ブログ:Dropout
登壇資料:Mitsunosuke Morishita(@dropout009)on Speaker Deck

安井:いや,仕事しながらの執筆は結構きついものがありますよね。

齋藤:こちらの本では途中で大きい構成変更がありましたが,森下さんの本は最初のイメージ通りに執筆が進みましたか? 途中で書きながら変えたことはありましたか?

森下:コンセプトは最初から一緒ですね。機械学習の解釈に便利そうな手法が4つあるのでそれを紹介します,というのは変わりませんでした。実データを利用するのかシミュレーションデータにするかとか,説明の方法を変えたことはありました。本では回帰問題だけを扱ってるのですが,もともとは分類問題も入れようと思っていたりといった,多少の説明の仕方の変更があったぐらいで,大きくは変わっていませんね。

安井:なるほど,ありがとうございます。ほかに,もう少しお互いの感想を聞いてみたり,質問があれば投げてみたいことなど,何かありますか?

画像

安井翔太(やすいしょうた)

2013年にNorwegian School of Economicsにて経済学修士号を取得しサイバーエージェント入社。入社後は広告代理店にて広告効果検証等を行い,その後2015年にアドテクスタジオへ異動。以降はDMP・DSP・SSPと各種のアドテクプロダクトにおいて,機械学習に関する業務やデータを元にした意思決定のコンサルティングを担当。現在はAILabの経済学チームのリーダーとして経済学と機械学習の融合に関する研究を行う一方で,Data Science Centerの副所長として社内のデータサイエンスプロジェクトのコンサルティングも担当。著書に『効果検証入門』⁠技術評論社,2020)がある。

森下:不勉強だったのですが,推薦システムやランキングに因果推論を利用するといった文脈をあまり知りませんでした。今そういうのが流行ってるというか,進んでいる新しいところなんでしょうか? 題材にこれを選ばれた理由をお伺いしたいなと思って。

齋藤:そうですね。これをテーマに選んだ理由は2つあります。平凡な理由としては,単純にその辺が自分の専門分野といえばそうなので,論文のサーベイとかがほぼ必要なく,書きやすいテーマだったということです。もう1つは,最初の話ともつながるんですけど,たとえば推薦と因果推論との組み合わせがありますとか,機械学習と因果推論の組み合わせがありますというよりも,今回は根源的な考え方を説く本と位置付けているので,それを説明するのに都合がいいというか,その考え方が色濃く出るのが推薦とかランキング学習×因果推論かな,というのがあります。

その中で,一般的な機械学習の実務はこうあるべきだよね,という根源の話を1章で導入して,そしてそれをわかりやすく伝えるための練習題材を2章以降で取り上げていきました。この分野でも同じ考え方で解決できますよね,こっち分野にも適用できて一緒ですよ,といった感じです。

画像

齋藤優太(さいとうゆうた)

2021年に,東京工業大学で経営工学学士号を取得。大学在学中から,因果推論と機械学習の融合技術(反実仮想機械学習)や,バイアスを含むユーザの行動ログに基づく推薦・ランキング学習に関する研究を行う。その過程で,ICML・RecSys・SIGIR・WSDM・SDMなどの機械学習・データマイニング領域におけるトップレベル国際会議にて査読付論文を発表。2020年には,半熟仮想株式会社を共同創業。以降当社の科学統括として,複数の国内テクノロジー企業との共同研究の取りまとめを担当,専門技術の社会実装や大規模実証研究に取り組み,その研究成果の一部が日本オープンイノベーション大賞・内閣総理大臣賞を受賞。2021年秋からは,Cornell University,Department of Computer Science(Ph.D. program)に進学し,関連領域の研究を継続する。

Twitter:@usait0
Website:usaito.github.io

森下:ありがとうございます。

齋藤:もちろん,推薦×因果推論はけっこう流行っていて,機械学習応用系の分野でたくさん論文が出てきています。そうなるとどの論文の内容を紹介しようかという悩みが出てくるんですが,今回は,この論文が有名だから説明しようというよりも,あるコンセプトの考え方が色濃く出ていたりして説明に便利な論文などを優先して取り上げました。たとえば実践で出てくる,コストと精度のトレードオフのような話を取り上げているんですが,このトレードオフが色濃く出る手法は何かって思ったときに,じゃあこの論文の話を入れるかなっという感じで組み込む論文を選んでいました。

そもそも最初に大きいテーマ変更があったって話をしてたんのですが,それ以降も最初にこれを説明しよう,次にこれを説明しようという感じで,わりと書きながら構成を考えてる感じがありましたね。

著者プロフィール

高屋卓也(たかやたくや)

編集者。2002年技術評論社に入社。販売促進部にて書店/取次などの担当を経て編集部に異動。主な担当書籍に『効果検証入門』(2020),『Kaggleで勝つデータ分析の技術』(2019),『前処理大全』(2018),『データサイエンティスト養成読本』などがある。