2009年2月9日から12日にかけて、Web関係のデータマイニングの会議「WSDM(Web Search and Data Mining)2009」がスペインのバルセロナにて開催されました。そこでの招待講演として、GoogleフェローであるJeff Dean氏が「Challenges in Building Large-Scale Information Retrieval Systems」というタイトルでスピーチを行いました。紹介記事では、その講演で使われたプレゼンテーション資料の翻訳および解説をしています。講演自体が1時間以上にわたり資料のページ数も多いため、解説記事は全部で4回に分かれています。
内容は大きく「一般的な検索システムの課題」「Google検索システムがこれまでに行ってきたアプローチ」「Googleが今後取り組む課題」の3つに分かれます。その中でも2番目についてが多くを占め、1997年の研究プロジェクト時代から現在に至るまでの検索技術をかなり細部にまで入り込んで説明しています。
1997年の初期はWebサーバ、インデックスサーバ、文書サーバというシンプルな構成でした。1999年にキャッシュサーバやクローラシステムを導入し、大量のデータを扱うのにかなり苦労していた模様です。1999年から2001年までに扱うページ数が5千万から10億に膨れ上がり、トラフィックも急激に増加しました。それに伴いマシン台数の追加はもちろんのこと、システム自体の性能改善も要求されました。大きな性能改善を可能にする取り組みに「ディスクスケジューリングの改善」「インデックス符号の改善」を挙げており、Googleが取り組んだインデックス符号の技術についてかなり詳しく紹介しています。紹介記事では補足説明を多く加えてくれていますが、正直私には難し過ぎてついていけませんでした。
今後Googleの検索システムが取り組む課題として「あらゆる文書をあらゆる言語に翻訳する」「さまざまなアクセス制御を扱う」「用途別に作られた検索システムを統合する」「未構造化・半構造化データから構造化された情報を抽出する」を挙げ、「大規模な情報検索システムを設計し構築するのはやりがいがあって楽しい」と締めくくっています。
この講演は動画で公開されています。この紹介記事と合わせて、Googleの検索技術に触れてみてください。
URL:http://d.hatena.ne.jp/llamerada/20090313/1236964198