『機械学習を解釈する技術』&『施策デザインのための機械学習入門』著者陣によるクロストーク

第3回 研究を実務に活かすには ―執筆陣がお勧めする書籍の「使いどころ」

この記事を読むのに必要な時間:およそ 5 分

2021年8月に発売された『機械学習を解釈する技術』の著者である森下光之助氏と『施策デザインのための機械学習入門』を共著した齋藤優太氏と安井翔太氏の3人が集まり,執筆の経緯や書籍への想いについて,これまで2回にわたってお届けしてきました。今回はその最終回です。

論文との向き合い方

安井:今回お2人が書籍で執筆した内容は,ここ数年の最新と言っても良いレベルの研究成果を実際のデータサイエンティストが使えるようにするものだと思っています。なので,お2人の論文や研究者との関わり方とかを聞くとおもしろいんじゃないかなと思います。

齋藤:たぶん,論文を書いてる研究者と,実践者として論文を読む人たちの間で,論文の役割に対する認識のギャップがある気がするんです。もちろん論文を書いてる研究者たちは(研究者ではない)読者が働く会社が抱えている個別の課題や問題設定は知らないので。あくまで個々の研究分野の中の価値観で,新規性があり,おもしろいと思ってもらえるだろうという基準で論文を書いていると思います。

それを踏まえた上で,実務のデータ分析者は,論文の内容をそっくりそのまま受け取るのではなく,自身が取り組む課題に見合う部分を意識的に抽出して,それを自社の設定,自社が抱えている問題設定に沿うように変形する/組み合わせる意識が必要かなと思っています。よくある,論文を実装して使ってみたけど上手くいかなかったといった例は,そのギャップが表面化したものだと思います。論文はあくまで基礎となる,いくつかの選択肢を与えてくれる情報源にすぎず,どう変形して使えば自社の設定で機能するのかを,自分の中で納得できていなければいけないと思います。

そういう自由な発想や感覚で動けている人はまだ少ないのかな,と感じることがありますし,今回の本にはとりあえず反実仮想に関連する分野で,研究と実務を橋渡しする手助けになれば,という気持ちも込めています。研究と実務を橋渡しするためには,論文の内容を読んだままに使うよりも,定式化や提案手法の根底にある考え方を上手く捉えて,それを自由に変形して自社の課題に合うようにまとめ上げる能力が必要なんだと思います。すごく難しいとは思うのですが,そこまでやらないと,せっかく時間をかけて論文を読んでもその内容をうまく使えないことになりかねません。

画像

齋藤優太(さいとうゆうた)

2021年に,東京工業大学で経営工学学士号を取得。大学在学中から,因果推論と機械学習の融合技術(反実仮想機械学習)や,バイアスを含むユーザの行動ログに基づく推薦・ランキング学習に関する研究を行う。その過程で,ICML・RecSys・SIGIR・WSDM・SDMなどの機械学習・データマイニング領域におけるトップレベル国際会議にて査読付論文を発表。2020年には,半熟仮想株式会社を共同創業。以降当社の科学統括として,複数の国内テクノロジー企業との共同研究の取りまとめを担当,専門技術の社会実装や大規模実証研究に取り組み,その研究成果の一部が日本オープンイノベーション大賞・内閣総理大臣賞を受賞。2021年秋からは,Cornell University,Department of Computer Science(Ph.D. program)に進学し,関連領域の研究を継続する。

Twitter:@usait0
Website:usaito.github.io

安井:ありがとうございます。意識的に抽出するという部分は,2つの抽出方法があるように思いました。1つは,1本の論文を読んで,その中から情報をうまく取捨選択して構築して,考え方を作り上げる方法です。それに対してもう1つは論文自体に,この論文は元々ある課題設定と解決策に多少改善をした程度のものだから重要じゃないけどこっちの論文は重要そうだ,といった選択をするやり方もあると思いました。その点はどう思いますか。

齋藤:それはどちらかというと研究者的な視点なんじゃないですか? 実践者の立場で論文を読むときには,たとえばIPS(書籍の中で登場する手法の1つ)を発展させるとこうなりますとか,論文の内容をそのまま独立した手法として受け取るのではなく,その手法を機械学習のフローの中の1つのオプションとして位置付ける,俯瞰の視点を持った方がいいと思います。

安井:その体系だった視点を持つためにはどうすれば良いんでしょうか?

齋藤:どうでしょう……。自分は自然とそのような考えで論文を読んでいたという感じですが,あんまり一般性のない話なのかもしれません。

安井:なるほど〜。その体系だった感覚みたいなものはどうやったら習得できるのかな,というところはみなさん興味ありそうですけどね。やっぱり論文の数読まないといけないのかな,とか。

齋藤:数というより,論文を読むときの姿勢や意識が重要な気はしますね。論文や教科書を読んだときに,それを単に正解として受け取るのではなくて,自分なりの言葉や解釈で位置付けるところまでやっているか,というのはあると思います。そうやって自分なりに手法や定式化を落とし込めている人は,自由に論文の内容を修正して応用していけるんじゃないでしょうか。

画像

安井翔太(やすいしょうた)

2013年にNorwegian School of Economicsにて経済学修士号を取得しサイバーエージェント入社。入社後は広告代理店にて広告効果検証等を行い,その後2015年にアドテクスタジオへ異動。以降はDMP・DSP・SSPと各種のアドテクプロダクトにおいて,機械学習に関する業務やデータを元にした意思決定のコンサルティングを担当。現在はAILabの経済学チームのリーダーとして経済学と機械学習の融合に関する研究を行う一方で,Data Science Centerの副所長として社内のデータサイエンスプロジェクトのコンサルティングも担当。著書に『効果検証入門』⁠技術評論社,2020)がある。

安井:ダメ元でお聞ききしますが,そういう人にはどうすればなれそうですか?

齋藤:単なる得意不得意な気もします。中途半端にわかった気にならない,というのも重要でしょうか。その辺,自分は頭の回転が速くないので,スピードや読んだ論文の数なんかは気にせず,むしろちゃんと自分なりの理解を得るまで読もう,という意識でこれまでやってきた点は良かったのかもしれません。

安井:なるほどなるほど。

齋藤:それと,論文を読むときは,それぞれの提案手法があるのでそれに着目してしまいがちなのですが,この本で伝えようとしたのは,⁠特にCFMLの分野の)論文から学ぶべきは,論文の著者が暗黙の内に共有している「機械学習に対する見方」なんだということです。それを研究畑ではない実践者の人たちにおもしろいと思ってもらえるような言葉で書いてみた,というのが今回の本の1つのコンセプトなのかなと思います。

安井:森下さんにも論文と実務がどう関連するか聞いてみたいのですが,いかがですか?

森下:僕は研修者ではないので,論文とはかなりユーザー寄りの付き合い方をしています。僕が論文を読むときは,実際に実務に使うときに上手くいくのかな,とか,どういうときに上手くいかないのかなとか,そういうのを調べます。たとえば,PD(Partial Dependence)だったら,どういうデータのときにまともな解釈ができて,どういうデータのときはうまく機能しないんだろうとか。そういうのをシミュレーションして試してみて納得する。

また実務というか,いま会社にある課題を解決するために使えるのかな,といったことはよく考えますね。ちょっと読んで,考えて,また考えてみたいな感じになってて,読むスピードは遅くなるのですが。僕自身,手法そのものも大事なんですが,大元の発想を学んでおいた上で,それを応用することが大事なのかなと思っています。たとえばSHAPは協力ゲーム理論を機械学習に応用しているんですが,じゃあ何か他のことに協力ゲーム理論を応用できるのかな,と考えたりします。

画像

森下光之助(もりしたみつのすけ)

東京大学大学院経済学研究科で計量経済学を用いた実証分析を学び,経済学修士号を取得。株式会社グリッドに入社し,機械学習を用いたデータ分析プロジェクトに従事。現在はTVISION INSIGHTS株式会社で執行役員兼データ・テクノロジー本部副本部長。テレビデータの分析,社内データの利活用の促進,データ部門のマネジメントを行っている。

Twitter:@dropout009
ブログ:Dropout
登壇資料:Mitsunosuke Morishita(@dropout009)on Speaker Deck

安井:実務への適用という点で言うと,齋藤さんはいかがですか?

齋藤:それでいうと,たとえば,因果推論の手法で,重み付けすれば簡単にバイアスが除去できます,みたいな話が徐々に広まってきていると思うのですが,では何で重み付けすれば良いのかは個別の状況やデータの取られ方などに依存して変わってくるんですよね。そのすべてのパターンについて,この場合はこう重み付けすればいいみたいな話は論文で書いてるわけではなく,そこは手法や分野の根底を理解しておかないと,自社の設定に適切に応用できないのかなと思います。

たとえばその会社でのデータの得られ方とか,こういうバイアスが重要ですよというのは,会社とかサービスごとにその数だけあると思います。その意味で,それぞれの手法を単体で覚えておくというのではなくて,一般化して根底にある考え方を理解しておかないと,いざというときに応用が効かないと思っています。それと,単に重み付けすればいいのね,と中途半端にわかった気になっていると,間違った使い方をしがちですよね。

3人:(笑⁠⁠。

齋藤:なので,自分たちの本の内容は,主に企業のデータサイエンティストが心得ておくべきことなのかなと思います。もしくは企業研究所で,研究成果を自社のビジネスに生かす立場にいる方や,中長期的な視点でサービス側にアドバイスしたり,社内コンサル的な立場で入ったりすることがある人たちも,ドンピシャのターゲットかもしれませんね。

著者プロフィール

高屋卓也(たかやたくや)

編集者。2002年技術評論社に入社。販売促進部にて書店/取次などの担当を経て編集部に異動。主な担当書籍に『効果検証入門』(2020),『Kaggleで勝つデータ分析の技術』(2019),『前処理大全』(2018),『データサイエンティスト養成読本』などがある。