情報推薦システムの基本

第3回推薦システムの分類とその効果

はじめに

前回の連載では、推薦そのものの概要について紹介しました。今回は推薦システムの大まかな枠組みを紹介し、続いて代表的なフィルタリング手法の概要を説明します。フィルタリングとは情報を推薦する手法のことです。

最後に、推薦システムの効果についていくつかの事例研究を紹介することで解説します。

情報推薦システムの枠組み

「膨大な情報の中からユーザに適した情報を探索し、そのユーザに提供すること」が情報推薦システムの役割です。これはつまり、検索システムの一種としてとらえることもできます。一般的な検索システムは、検索エンジンにキーワードを入力し、その結果を受け取ります。それに対して、情報推薦システムはそのキーワードに類するものを推薦システム側が決め、ユーザに対してその結果を返します。

ここでは、推薦システムの枠組みを構築して行く際に考慮される観点を以下の4つに分類し、それぞれの観点について簡単に紹介していきます。

  1. データの持ち方(取得)
  2. 推薦手法の選択
  3. データのシステムへの適用
  4. ユーザへの提示

1. データの持ち方(取得)

先にも述べたように情報推薦システムはユーザに対して適切な情報を提示するシステムです。

そのためには、まずユーザについての何かしらのデータを持たなければなりません。ユーザデータを獲得するには明示的な方法と暗黙的な方法に分類されます。

明示的な方法は、ユーザに興味を持つことやものについて直接入力してもらう方法です。会員登録時に興味のあるカテゴリを登録してもらったり、興味のある商品に対して評価を付けてもらったりして情報を得ることがこれにあたります。

それに対して暗黙的な方法とは、ユーザの行動から興味を分析する方法です。サイト上でのクリックや閲覧時間、システムによっては視線なども活用されます。

そしてそのデータをどのように扱うかは次に述べるフィルタリング手法に依存します。

2. 推薦手法の選択

情報を推薦する手法はこれまでたくさん提案されていますが、代表的な手法はデモグラフィックフィルタリング、内容ベースフィルタリング、協調フィルタリング、そして協調フィルタリングに内容ベースやデモグラフィックを組み合わせたハイブリッドフィルタリングという4つに分類されます。これらについては、後で解説します。

3. データのシステムへの適用

データの持ち方、推薦手法を選択して、続いてはデータをどのように推薦手法へ適用するかを決めていきます。データをどのように適用するかは大きく2つに分類され、それぞれメモリベースとモデルベースと呼ばれています。

メモリベースとはデータをそのままの形で推薦手法に適用していく方法です。それに対してモデルベースとはデータを統計的にモデル化して推薦手法に適用します。

モデルベースでは統計的な手法を用いることで、メモリベースでは実現できないような高度な推薦を行うことができます。モデルベースは構築や運用に対して高い知識が要求されます。推薦システムは一度作ったら終わりではなく、ユーザの反応に合わせて継続的なメンテナンスが必要であり、ユーザの行動の変化に合わせた統計モデルを構築しなければならず、更新は非常に複雑な問題です。それに対してメモリベースのシステムは構築が容易であり、ユーザの行動の変化にも容易に対応できます。またモデルベースでは性能をあげようとすればするほど、処理が複雑になり全体のパフォーマンスに影響が出ます。このようにそれぞれ特長があるため、推薦システムを適用するサービスの状況に合わせて適切な手法を選択する必要があります。

4. ユーザへの提示

このようにしてデータをフィルタリング手法に与えると、ユーザがあるアイテムにどれだけの価値を感じるのか、ということに対する予測値が得られます。では、ユーザに提示する際に、結果をそのまま予測値の順に並べて出力するべきかというとそういうわけではありません。一般的な推薦システムでは複数個のアイテムをリストにしてユーザへ提示することが多いですが、そのリストを見たユーザがどのような印象を持つかを考える必要があります。

例えば書籍を推薦している場合で考えてみましょう。ユーザがあるシリーズの中の1冊を高く評価した時、他に推薦される本がそのシリーズの他の書籍で埋め尽くされてしまった場合にユーザはどう感じるでしょうか。シリーズ物の書籍ですので、他のシリーズの書籍とはおそらくコンテンツベースでは類似していると判断されるでしょうし、同時に購入されることが多いため協調フィルタリングでも近い本として判断されるでしょう。しかしながらシリーズ物の書籍を高く評価している時点で、ユーザはそのシリーズの他の書籍を認識している可能性が高く、ユーザにとっては価値の低い推薦になってしまうのではないでしょうか。

どのようなアイテムをユーザに提示するかという問題ではユーザの知識に対する新鮮さや、推薦されるアイテムのリストを見た時の多様さといった概念も重要になってきます。この連載ではこういった部分についても紹介していきます。

フィルタリングの手法

ここからは、フィルタリングの代表的な手法について解説します。

デモグラフィックフィルタリング

デモグラフィックフィルタリングとは一番シンプルな考え方で年齢、性別、居住地等のユーザのプロフィール情報を元にアイテムを推薦する手法です。

内容ベースフィルタリング

内容ベースフィルタリングとは、推薦対象となるコンテンツの情報とユーザの嗜好しこうデータをマッチングし、類似性が高いコンテンツを推薦する手法です。たとえば、映画を推薦する場合を考えてみましょう。ある映画には次のような情報が付加されています。

  • 監督
  • 主演俳優
  • ジャンル
  • 説明文に入っているキーワード

これらの情報とユーザのデータをマッチングして、コンテンツ(今回の場合は映画)を推薦します。ユーザが過去に見て高く評価した映画の監督、俳優、ジャンル、キーワードから推薦するのが内容ベースフィルタリングリングです。これをどのように実現するかは次回で紹介します。

内容ベースフィルタリングによる推薦は一見妥当なように見えて、欠点があります。内容ベースフィルタリングでは、コンテンツを特徴づけるために多くの情報を用いますが、その情報のどれがユーザの興味と関係するのかを特定できないことです。たとえばユーザが、過去に閲覧したことのある映画と同じ監督の別の映画を推薦しても、良い推薦とは限りません。そのユーザはある出演者に対して関心を持って映画を見ている場合があるからです。

また、同じような商品を勧めることにも問題があります。たとえば、ECサイトで椅子を購入したユーザに同じように椅子を進めたところで、購入される可能性は小さいでしょう。椅子を購入したユーザには机や、椅子の足に付けるキャップ、クッションなどを推薦するほうがクロスセル(合わせ買い)の確率を高めることができるだろうというのは、想像に難くありません。

協調フィルタリング

協調フィルタリングとは、対象となるコンテンツに対して、他のユーザがどのような嗜好を持っているかをベースに推薦する手法です。この手法では、実際のユーザの興味に即した形でコンテンツを推薦することが可能となります。いわゆるAmazonにおける「この商品を買ったユーザはこんな商品も買っています」を実現する手法です。

対象となるユーザが購入したり高く評価したりする関心の高いアイテムと、同じ商品に関心を抱いている他のユーザが関心を示している異なるアイテムを推薦するというのが、協調フィルタリングの特徴です。

この手法をどのように実現するかは次回以降で紹介します。

協調フィルタリングは、ほかのユーザの行動や評価をもとにコンテンツを推薦するため、新しいコンテンツには対応できません。誰の評価もないというのは、共通に評価できるユーザが存在しないことになるからです。

新しいコンテンツに対応できるという点でだけみれば、内容ベースフィルタリングの方が優れていると言えます。しかし別の観点からすると、内容ベースフィルタリングには、ユーザがコンテンツのどの特性に関心を持ったのか分からないという欠点がありました。そこを強調フィルタリングでは、興味の類似するユーザから推薦するという切り口で解決しています。

協調フィルタリングは単純な手法でありながら高い効果を発揮する手法であるため、推薦システムを導入する際に使われることの多い方法です。

ハイブリッドフィルタリング

このようにそれぞれの手法に、特長が存在します。そのため協調フィルタリングに内容ベースの手法や、デモグラフィックの手法を取り入れて推薦を行うハイブリッドフィルタリングという手法が提案されています。これらの手法は2000年代前半にはあまり効果を発揮できませんでしたが、近年SNSの登場により、より詳細な情報を容易に獲得できるようになったことから大きな成果を上げ始めています。

推薦システムの効果

このようにユーザひとりひとりの嗜好性に合ったコンテンツを提示することは、すべてのユーザに同じコンテンツを提示する方法と比べると、次の2つの効果が期待されます。

  1. ユーザのコンテンツに対する行動を促進できる
  2. 多くの種類のコンテンツを消費することができる

この2つについては、それぞれ事例研究を紹介して解説します。

1.についてはGoogleが、YouTubeの推薦システムの成果について報告しています。彼らはユーザがどのビデオを見たかという情報を用いて、協調フィルタリングに基づいた推薦システムをYouTubeに適用しました。その結果、推薦による人気ランキングを表示する場合と比較して、ビデオのクリック率が207%向上し、満足度もそれには及ばないものの向上したとしています(参考The impact of YouTube recommendation system on video views⁠。

2.についてはペンシルバニア大学のグループが興味深い実験結果を報告しています(参考Recommender systems and their impact on sales diversity⁠。

彼らは、推薦システムの購買行動について経済モデルを用いてシミュレーションを行いました。その結果、単純な協調フィルタリングの推薦システムを考えたとき、多様なコンテンツの消費を促すということは必ずしも成立しないと主張しています。コンテンツの消費量は、そのシステムにおいて元データとなるユーザがどのような行動をしてきたかに依存するとしています。

上記のYouTubeの例にもあるように、推薦システムを用いることでユーザの回遊性や満足度が向上することは示されており、ECサイトをはじめとしてさまざまなサービスで推薦システムが用いられています。しかし、推薦システムがユーザにどのような効果をもたらすかについてはまだ明らかになっていない部分も多くあります。また、推薦システムが有益に働くかは、保持しているデータやその適用領域によっても異なります。読者のみなさまには、推薦システムが魔法の杖ではないことをご留意いただきたいと思います。

今回は推薦システムの概要を説明し、それがどのような効果をもたらすのかについて紹介しました。次回からは実際の推薦システムの構築方法について紹介していきます。

おすすめ記事

記事・ニュース一覧