一般記事

あなたはデータに対する「正しい技術」を選択できますか?〜数理モデリングによる現象理解に向き合うときの気持ち

この記事を読むのに必要な時間:およそ 4 分

はじめまして。株式会社博報堂の熊谷です。

筆者は広告会社の黒子として広告やマーケティング,メディアプランニングのためにどのようなデータをどのように収集するべきかを設計したり,収集したデータを用いて機械学習モデルを構築して施策を行ったりと,データ分析や機械学習にまつわる小さな相談から大きな意思決定に至るまでさまざまな業務に携わっています。

このたび『データ活用のための数理モデリング入門』(以降,本書)を共著者として執筆しました。本稿では本書の紹介を兼ねて「数理モデリングとは何か」についての筆者の思いを書きます。いわば,収録されなかった「前書き」です。

数理モデリングとは何か

そもそもタイトルにある「数理モデリング」とは一体何でしょうか。本書の1章では

現象を理解するために立てる数理的な仮説を数理モデル,また数理モデルを立てることを数理モデリングと言います

と定義しています。では,数理的な仮説とは一体どのようなものでしょうか。

筆者は「現象,ひいては世界をどう捉えるか」ということだと考えています。

たとえば,筆者における「グラノーラにヨーグルトをかけたものを朝食にする」という現象を考えてみましょう。

なぜ筆者はグラノーラを食べているのでしょうか。理由は栄養素でしょうか,手軽さでしょうか,それとも最寄りのスーパーマーケットで安売りされていたからでしょうか。テレビCMやインターネット広告を見たからでしょうか。YouTuberのモーニングルーティン動画に影響されたのでしょうか。春になり朝の気温が上がったからでしょうか。

なぜパンや白米ではなくグラノーラを選んだのでしょうか。一緒に食べるのがなぜ牛乳ではなくヨーグルトなのでしょうか。筆者の朝食にもう一品提案するとしたら何が良いでしょうか。チーズ,野菜,それともソーセージでしょうか。

筆者はこれから何日間グラノーラを食べ続けるのでしょうか。1週間でしょうか。1ヵ月でしょうか。半年でしょうか。生涯グラノーラを食べ続けるかもしれません。いつになったら飽きるのでしょうか。飽きるきっかけがあるのでしょうか。飽きたら次は何を食べるのでしょうか。

このように,朝食ひとつについても,さまざまな要因や観点が存在しています。これらの観点が「数理的な仮説」であり,仮説に基づいて数式を作り,データに当てはめることが「数理モデリング」である,と筆者は考えています。

モデリングにまつわる2つのエピソード

「数理モデリングとは何か」を考えるたびに,筆者はいつも2つの話を思い出します。

1つ目はとある分野の第一線で活躍する先輩研究者が披露していた 「モデリングとは『風神雷神図屏風』だ」 という話です。

風神雷神図屏風

※)
この画像は,クリエイティブ・コモンズ・表示・継承ライセンス3.0のもとで公表されたウィキペディアの項目風神雷神図 - Wikipediaを素材として二次利用しています。

彼の主張は,

  • 昔の日本人は天候の変化を「雨や風は風神の風袋によって引き起こされる」⁠雷は雷神の太鼓によって引き起こされる」だと信じていた
  • これは彼らなりに気象現象を「風神」「雷神」という,直接観測できない要因(これを専門用語で潜在変数latent variableと呼びます)2つを用いてモデリングしていたのである
  • とはいえ現代の我々は風神も雷神も存在せず,雨風や雷が彼らによるものではないことを知っている
  • その代わり,さまざまなセンサーによって計測されるデータに基づいて「どのように気象現象が発生するか」をモデリングしている
  • これは気象だけでなく,自然言語やマーケティング,金融といった他の領域にも言えることだ
  • まとめると「どのような要因や構造によってその現象が発生しているのか」を考えることがモデリングであり,研究である

というものです。

筆者のモデリングに対する考え方は,この先輩に強い影響を受けています。また,これまで出会った偉大な先輩,同僚,後輩の全員がこのような視点を備えていたように思います。

しかし,このような視点は一朝一夕で身につけられるものではありません。筆者自身もそうです。

新卒で配属された職場では,読んだばかりの論文を適当に拡張したモデル(その実,余分なパラメータや機構を追加しただけなのですが)を提案するたびに「数式のその項は一体何を表しているのか」⁠なぜそのような構造が実世界に存在し,データに現れると考えているのか」⁠その項が必要だと納得できるようなわかりやすい例を挙げて」といった点を上司や同僚,果ては後輩から詰められ続けることで少しずつ身についたように思います。とはいえ,今も完璧に体得したとは到底思えません。

2つ目は夏目漱石の小説「夢十夜」「第六夜」です。

数々の国宝や重要文化財を残した鎌倉時代の仏師である運慶。彼が仏像を彫る姿を見ていた主人公と見物人が以下のやりとりを行います。

若い男は,すかさず,⁠あの鑿と槌の使い方を見たまえ。大自在の妙境に達している」と云った。

運慶は今太い眉を一寸の高さに横へ彫り抜いて,鑿の歯を竪に返すや否や斜に,上から槌を打ち下おろした。堅い木を一ひと刻みに削けずって,厚い木屑が槌の声に応じて飛んだと思ったら,小鼻のおっ開いた怒り鼻の側面がたちまち浮き上がって来た。その刀の入れ方がいかにも無遠慮であった。そうして少しも疑念を挾んでおらんように見えた。

「よくああ無造作に鑿を使って,思うような眉や鼻ができるものだな」と自分はあんまり感心したから独言のように言った。するとさっきの若い男が, ⁠なに,あれは眉や鼻を鑿で作るんじゃない。あの通りの眉や鼻が木の中に埋っているのを,鑿と槌の力で掘り出すまでだ。まるで土の中から石を掘り出すようなものだからけっして間違うはずはない」と云った。

自分はこの時始めて彫刻とはそんなものかと思い出した。はたしてそうなら誰にでもできる事だと思い出した。

※)
青空文庫『夢十夜』より引用。底本:『夏目漱石全集10巻』ちくま文庫,筑摩書房,1988(昭和63)年7月26日第1刷発行,1996(平成8)年7月15日第5刷発行。底本の親本:『筑摩全集類聚版夏目漱石全集』筑摩書房,1971(昭和46)年4月~1972(昭和47)年1月

筆者はデータに基づく数理モデリングの多くはこのような作業ではないと考えています。これは先ほどの話とは矛盾するように聞こえるかもしれません。

多くの人々(もしかするとこれを読んでいるみなさんも⁠⁠ は,運慶が鑿(のみ)と槌(つち)で木の中に埋まっている仏像を掘り出すように,モデリングによって何らかの方程式や関数をデータに当てはめることで「データの背後に存在する真の構造が明らかになる」と考えがちです。

しかし多くの場合,特に本書の著者たちが日々取り組んでいる実サービスから得られるデータにおいて「真の構造」は神のみぞ知るものであり,我々分析者は知りえません。また,ある現象にまつわるすべてのデータを入手するのは稀であり,一部の観測できるデータにのみ基づいてモデリングを行わねばなりません。

そのため,モデリングによって明らかになるのは「手元にある限られたデータに対してある構造Xを仮定したとき,構造Xを仮定していないときと比べてどの程度ましなモデルが得られたか」であり,その結果に基づいて「構造Xを仮定したモデルが世界の真理である」とは主張できないことを十分自覚しなければならない,と筆者は考えます(収集の過程が注意深く設計されていたり,収集後に十分にバイアスが取り除かれたデータであれば,そのデータから得られるモデルは信頼に足るものでしょう⁠⁠。ちなみに多くの場合,⁠どちらのモデルが優れているか」は学習時に用いていないデータ(テストデータ)に対する当てはまりの良さを比較して検証します。

では,どのような現象がどのようにモデリングされるのでしょうか。ここから,みなさんにとって比較的馴染みが深そうな現象とそのモデリングについて3つの事例を紹介します。

著者プロフィール

熊谷雄介(くまがえゆうすけ)

2011年日本電信電話株式会入社。2015年株式会社博報堂入社。研究開発局およびマーケティングテクノロジーセンター所属。機械学習を用いた需要・購買予測,ターゲティング広告配信,広告効果シミュレーション,メディアプランニング,データ融合,コンテンツマーケティングの研究開発および実案件対応に従事。

バックナンバー

2020