情報推薦システムの基本

第3回 推薦システムの分類とその効果

この記事を読むのに必要な時間:およそ 3 分

はじめに

前回の連載では,推薦そのものの概要について紹介しました。今回は推薦システムの大まかな枠組みを紹介し,続いて代表的なフィルタリング手法の概要を説明します。フィルタリングとは情報を推薦する手法のことです。

最後に,推薦システムの効果についていくつかの事例研究を紹介することで解説します。

情報推薦システムの枠組み

「膨大な情報の中からユーザに適した情報を探索し,そのユーザに提供すること」が情報推薦システムの役割です。これはつまり,検索システムの一種としてとらえることもできます。一般的な検索システムは,検索エンジンにキーワードを入力し,その結果を受け取ります。それに対して,情報推薦システムはそのキーワードに類するものを推薦システム側が決め,ユーザに対してその結果を返します。

ここでは,推薦システムの枠組みを構築して行く際に考慮される観点を以下の4つに分類し,それぞれの観点について簡単に紹介していきます。

  1. データの持ち方(取得)
  2. 推薦手法の選択
  3. データのシステムへの適用
  4. ユーザへの提示

1. データの持ち方(取得)

先にも述べたように情報推薦システムはユーザに対して適切な情報を提示するシステムです。

そのためには,まずユーザについての何かしらのデータを持たなければなりません。ユーザデータを獲得するには明示的な方法と暗黙的な方法に分類されます。

明示的な方法は,ユーザに興味を持つことやものについて直接入力してもらう方法です。会員登録時に興味のあるカテゴリを登録してもらったり,興味のある商品に対して評価を付けてもらったりして情報を得ることがこれにあたります。

それに対して暗黙的な方法とは,ユーザの行動から興味を分析する方法です。サイト上でのクリックや閲覧時間,システムによっては視線なども活用されます。

そしてそのデータをどのように扱うかは次に述べるフィルタリング手法に依存します。

2. 推薦手法の選択

情報を推薦する手法はこれまでたくさん提案されていますが,代表的な手法はデモグラフィックフィルタリング,内容ベースフィルタリング,協調フィルタリング,そして協調フィルタリングに内容ベースやデモグラフィックを組み合わせたハイブリッドフィルタリングという4つに分類されます。これらについては,後で解説します。

3. データのシステムへの適用

データの持ち方,推薦手法を選択して,続いてはデータをどのように推薦手法へ適用するかを決めていきます。データをどのように適用するかは大きく2つに分類され,それぞれメモリベースとモデルベースと呼ばれています。

メモリベースとはデータをそのままの形で推薦手法に適用していく方法です。それに対してモデルベースとはデータを統計的にモデル化して推薦手法に適用します。

モデルベースでは統計的な手法を用いることで,メモリベースでは実現できないような高度な推薦を行うことができます。モデルベースは構築や運用に対して高い知識が要求されます。推薦システムは一度作ったら終わりではなく,ユーザの反応に合わせて継続的なメンテナンスが必要であり,ユーザの行動の変化に合わせた統計モデルを構築しなければならず,更新は非常に複雑な問題です。それに対してメモリベースのシステムは構築が容易であり,ユーザの行動の変化にも容易に対応できます。またモデルベースでは性能をあげようとすればするほど,処理が複雑になり全体のパフォーマンスに影響が出ます。このようにそれぞれ特長があるため,推薦システムを適用するサービスの状況に合わせて適切な手法を選択する必要があります。

4. ユーザへの提示

このようにしてデータをフィルタリング手法に与えると,ユーザがあるアイテムにどれだけの価値を感じるのか,ということに対する予測値が得られます。では,ユーザに提示する際に,結果をそのまま予測値の順に並べて出力するべきかというとそういうわけではありません。一般的な推薦システムでは複数個のアイテムをリストにしてユーザへ提示することが多いですが,そのリストを見たユーザがどのような印象を持つかを考える必要があります。

例えば書籍を推薦している場合で考えてみましょう。ユーザがあるシリーズの中の1冊を高く評価した時,他に推薦される本がそのシリーズの他の書籍で埋め尽くされてしまった場合にユーザはどう感じるでしょうか。シリーズ物の書籍ですので,他のシリーズの書籍とはおそらくコンテンツベースでは類似していると判断されるでしょうし,同時に購入されることが多いため協調フィルタリングでも近い本として判断されるでしょう。しかしながらシリーズ物の書籍を高く評価している時点で,ユーザはそのシリーズの他の書籍を認識している可能性が高く,ユーザにとっては価値の低い推薦になってしまうのではないでしょうか。

どのようなアイテムをユーザに提示するかという問題ではユーザの知識に対する新鮮さや,推薦されるアイテムのリストを見た時の多様さといった概念も重要になってきます。この連載ではこういった部分についても紹介していきます。

著者プロフィール

関喜史(せきよしふみ)

株式会社Gunosy共同創業者。

東京大学大学院工学系研究科技術経営戦略学専攻博士後期課程在学中。専門はウェブにおける推薦システムを中心としたデータマイニング応用手法の研究。

コメント

コメントの記入