一般記事

あなたはデータに対する「正しい技術」を選択できますか?〜数理モデリングによる現象理解に向き合うときの気持ち

この記事を読むのに必要な時間:およそ 4 分

SNSにおけるつながりの関係から交際相手を推定する

人々はSNSにおいて幼馴染や同僚,家族などとつながっています。これを友人関係と呼びましょう。さて,人々のSNSにおける友人関係を用いてある人物の交際相手が誰なのかを推定できるでしょうか?

たとえば,ここに筆者のFacebookにおける友人関係のデータがあったと想像してみましょう(ちなみに筆者はFacebookのアカウントを持っていません⁠⁠。筆者の友人リストには筆者の同僚,親類,高校時代の同級生,インターネット上での知り合いなどさまざま人々が存在しているとします。友人関係のグラフ構造をもう一歩深く観察すると,筆者の同僚たちは同じく同僚たちと,親類は親族と,高校時代の友人は友人同士で強くつながり,それぞれでコミュニティを形成していることが想像できるでしょう。

さて,仮に筆者にパートナーがいたとしましょう。古い旧友を紹介したり,同僚を家に呼んだり,法事や年末の帰省などを通じて筆者はパートナーに自身の友人を紹介するでしょう。その結果,「パートナーはコミュニティの垣根を超えて筆者の友人とつながる」という現象が発生します。逆に言えば,ある人物Xの友人に存在する複数のコミュニティを横断してつながりがある人物YがXのパートナーである,というわけです。

「そんな簡単なモデルで予測できるのだろうか」とお考えかもしれません。Facebookの実際のデータ(筆頭著者は2020年4月現在,同社のVice President of Engineeringです)を使った実験の結果,⁠最も同じ写真に写っている人物をパートナーと予測する」⁠90日間で最もプロフィールを閲覧した人物をパートナーと予測する」といった手法に比べて,予測精度が優れていることが論文において示されています。特に,結婚関係の予測において6割という高い精度を発揮しています。

Lars Backstrom and Jon Kleinberg, "Romantic partnerships and the dispersion of social ties: A network analysis of relationship status on facebook", Proceedings of the ACM Conference on Computer Supported Cooperative Work, CSCW, 2014

駐車の難易度を予測する

あなたが自動車を運転して出かけることが多いならば,空いている駐車場をすぐに見つけられるときと,なかなか見つけられないときがあるでしょう。駐車のしやすさは目的地や時間帯,曜日によって異なります。これは数理モデリングによって予測可能でしょうか? そのためにはどのようなデータ,どのような特徴量,どのようなモデルが必要でしょうか?

Googleの研究者は,駐車の難しさをモデル化する上で「⁠⁠駐車が簡単だったか,または難しかったか』の正解データをどのように集めるか」「どのような特徴量を使うか」「どのような予測モデルを用いるか」の3つの課題があったと報告しています。

教師データの収集はクラウドソーシングを用いました。しかし,⁠駐車場を見つけるのは簡単でしたか?」といった主観的な質問ではユーザごとに回答が異なり,一貫性がありませんでした。そこで「駐車場を見つけるまでどれぐらい時間がかかりましたか?」という客観的な質問に変えることで回答の信頼性が上がり,高品質な教師データが集まりました。

特徴量については,位置情報をそのまま用いたのでは私有地に駐車するユーザや,バスやタクシーの利用者が含まれているために誤認識してしまいます。そのため,まずは時間帯や曜日,その地域における駐車場の散らばり具合を採用しました。また,「駐車が困難であるほどユーザは何度も同じエリアを往復して時間がかかるだろう」という観察に基づき,「駐車場にまっすぐに向かった場合の所要時間と,実際にユーザが駐車場にたどり着くまでの所要時間の差」も特徴量として採用しました。その結果,20個の特徴量を構築しました。

最後に予測モデルですが,ニューラルネットワークや勾配ブースティングといった複雑で高精度なモデルではなく,ロジスティック回帰を採用しました。これは,⁠ユーザからの回答』というノイズが入りやすいデータに対して頑健であること」⁠モデルの出力をそのまま『駐車の難しさの確率』としてユーザに提示できること」⁠どの変数が予測に影響を与えるかが理解でき,モデルの振る舞いが検証しやすいこと」という3つの理由に基づいています。

結論だけを見れば,⁠20個の特徴量を用いたロジスティック回帰」という非常にシンプルな構成ですが,それに至るまでの過程は非常に納得がいくのではないでしょうか。

Google AI Blog: Using Machine Learning to Predict Parking Difficulty

遅れて発生するフィードバックを考慮する

これはインターネット広告の分析から生まれたモデルです。インターネット広告の目的はユーザに「購入」「申し込み」といったなんらかのアクション(これをコンバージョンと呼びます)を引き起こすことです。インターネット広告事業者は,よりコンバージョンしやすいユーザに広告を配信するために,⁠ある期間において広告に接触したユーザの情報」を用いて「そのユーザがコンバージョンしたか否か」を学習・推定しています。このタスクがコンバージョン予測です。

たとえば本書の購入をコンバージョンと定義し,本記事の読者の中でどのような人物が書籍を購入しやすいかを学習・推定するコンバージョン予測タスクを考えましょう。

この記事が2020年4月15日に公開されたとします。コンバージョン予測ではある一定の期間(学習期間と呼びます)のログを用いるため,もし,学習期間を2020年4月15日から2020年4月22日と定め,その間に購入した読者(正例)と購入していない読者(負例)を分類する場合,2020年4月22日より後に書籍を購入した読者は実際は正例であるにもかかわらず負例として扱わなければなりません(元論文のデータでは13%のコンバージョンが2週間後に発生しています⁠⁠。

このバイアスは記事を読んだ日付が後ろになればなるほど強く発生するため,学習期間後に発生していたかもしれない遅れて発生するフィードバックを扱うための構造をモデルに組み込む必要があります。レスポンスが遅い友人を遊びに誘うときは返事を気長に待つ,といったような現象は日常生活でもよく発生するでしょう。これは「忙しい友人は返事が遅い」⁠スマートフォンに張り付いている友人は返事が早い」という現象を私達が暗黙のうちにモデリングしているからです。

この論文では「ユーザによって購入のしやすさは異なる」という従来のモデルに「フィードバックの遅れは指数分布に従う」⁠ユーザによって指数分布の形が異なる」という構造を組み込んだモデルを提案し,実際に予測精度が改善することを示しています。

Olivier Chapelle, "Modeling delayed feedback in display advertising", Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2014.

本書の見どころ

長々と数理モデリングについて筆者のお気持ちを語ってしまいました。ここからは本書の紹介に戻りましょう。

本書の目的は,ここまで説明したような「現象の捉え方」をさまざまな分野のさまざまなモデルを用いて身に付ける第一歩になること,特に初めてデータ分析に取り組む人の手助けになることです。

本書は企業でデータ分析に携わる4人が分担して書きました。水上は数理モデリングの基礎と資源の配分,オンライン広告の背後で動いているモデルについて説明しています。髙野はネットワーク構造のデータについて,その構造自体の理解やネットワーク上における情報の振る舞いを記述するモデルを説明しています。藤原は画像認識の深層学習によるモデリングを説明しています。最後に筆者はさまざまな種類の購買予測のモデリングと,ユーザの離脱を医薬の領域で発展してきた生存分析を用いてモデリングする方法を説明しています。

それぞれの章では「なぜこのようにモデル化するのか」を筆者たちなりのやり方で説明しています。人によっては当たり前に思えることを回りくどく説明しているように感じるかもしれません。しかし,一見当たり前に感じる前提や仮定,処理をどれほど自覚しているか,が数理モデリングに取り組む際に重要であると筆者たちは考えました。

本書は Python のサンプルコードやライブラリの使い方分析に用いるデータの収集方法が書かれているわけでもなければ,高精度な予測モデルを構築するためのテクニックが書かれているわけでもありません。

相関関係だけでない,因果関係を知る方法も説明していません。

もし本書を読み終え,数理モデリングについてさらに興味を持っていただけたならば,それぞれの書籍に手を伸ばしていただければと思います。

著者プロフィール

熊谷雄介(くまがえゆうすけ)

2011年日本電信電話株式会入社。2015年株式会社博報堂入社。研究開発局およびマーケティングテクノロジーセンター所属。機械学習を用いた需要・購買予測,ターゲティング広告配信,広告効果シミュレーション,メディアプランニング,データ融合,コンテンツマーケティングの研究開発および実案件対応に従事。

バックナンバー

2020