データ発見隊

第1回 アクセスパターンの活用

この記事を読むのに必要な時間:およそ 2 分

セレクトブクマ

日常的に多くのユーザからアクセスされているWebページは「重要である」と考えられますし,一時的にでも多数のユーザからアクセスされるWebページは「人気がある」と言えるでしょう。Webページのアクセスパターンがわかればページの性質をある程度知ることができると思われます。

他人のWebページのアクセス状況を正確に知ることはできませんが,はてなブックマークやdel.icio.usのようなソーシャルブックマークサービスの情報を使うと,Webページがどのようなパターンでアクセスされているかをだいたい知ることができます。

誰にとっても有用なリファレンス情報などのページは一定の頻度でブックマークされ続けるでしょうし,一時的に人気が出たページの場合は短い期間に集中してブックマークされる可能性が高いと思われます。

Webページがいつソーシャルブックマークに登録されたかという情報を調べることにより,そのページがどちらのタイプに近いかを知ることができると考えられます。

慶應義塾大学の上野大樹氏は,ソーシャルブックマークへの登録パターンを解析することによって,一時的に人気のあるページよりも定番的に有用なページを抽出できる「セレクトブクマ」参考文献2というシステムを提案しています。

図6「秋葉原事件」に関するページのブックマーク日時を示したものです。このように,特別な事件などに関連するブックマークは登録される日時が集中し,その後はブックマークされることがほとんどありません。一方,汎用の情報として有用なページは,図7のように長期間にわたりブックマークされ続ける傾向があります。

図6 ⁠秋葉原事件」に関するページのブックマーク日

図6 「秋葉原事件」に関するページのブックマーク日

図7 ⁠Googleサービスの使い方」に関するページのブックマーク日

図7 「Googleサービスの使い方」に関するページのブックマーク日

上野氏の実験によれば,ブックマーク日時パターンの解析によって長期的にブックマークされているページを抽出することにより,有用なページを見つけやすくできることが実証されています。ソーシャルブックマークの登録数やタグが重要であることはよく実感されていますが,登録のパターンからも有益な情報を抽出できることは興味深いところです。

まとめ

GoogleやMac OS XのSpotlightのようなキーワード検索を誰もが利用するようになり,その有効性も限界もよく知られるようになってきました。より有効にキーワード検索を行うため情報に「タグ」をつける方法が最近ポピュラーになってきていますが,人手でタグをつけるのは面倒ですし,一貫したタグの付加は大きな心理的負担になってしまいます。

検索のための特別な作業を行わず,ファイルの属性やアクセス履歴のような暗黙的な情報を効果的に利用できる検索方法が望まれます。手持ちのファイルを検索する場合,⁠古いファイル」⁠大きなファイル」のようなファイル属性や,⁠昔よく使ったファイル」⁠大事なファイル」のようなアクセスパターンなども併用すると,キーワード検索の限界を越えた効率的な検索が可能になることは間違いありません。ファイル名も内容もよく覚えていない場合でも「2年ぐらい前にちょこちょこ編集していたRubyプログラム」のようなファイルがすぐに見つかるでしょう。

近い将来にUNIXやWindowsのファイルシステムの基本機能が大きく変化することはないでしょうから,このような検索を行うためには特別の工夫をする必要がありますが,ちょっとした手間で検索効率が上がるのであれば検討する価値は十分あると思います。

次回はファイルの秘密度,ファイルの重要度など,アクセスパターン以外のファイル属性の活用について考えてみたいと思います。

参考文献
1.増井俊之 ⁠なんでもフラクタル」⁠WIRED VISION Blog2007
2.上野大樹,安村通晃「セレクトブクマ: ソーシャルブックマークの時間情報を用いた情報フィルタリング検索」⁠情報処理学会第50回プログラミング・シンポジウム,pp.9-16,2009

著者プロフィール

増井俊之(ますいとしゆき)

慶應義塾大学教授。ユビキタス時代のインタフェース技術の研究開発に従事。

本棚.orgGyazoQuickMLFeedTVなど各種のネットサービスを運用中。

http://www.pitecan.com/