アンケートご協力のお願いgihyo.jpでは,2010年度に向けて豪華プレゼントが当たる読者属性アンケートを実施しております。ご協力ください。

gihyo.jp » DEVELOPER STAGE » 連載 » 検索エンジンはいかにして動くのか? » 第1回 検索エンジンとは

検索エンジンはいかにして動くのか?

第1回 検索エンジンとは

はじめに

検索エンジンと聞くと,みなさんは何を思い浮かべるでしょうか?

GoogleやYahoo!などの検索ページを思い浮かべる方がほとんどだと思います。近年は,それら企業の努力によって検索エンジンというものが非常に身近になり,私たちの生活に欠かせないものとなりつつあります。

しかし,検索エンジンと一言で言っても,上記のような一般の方々へのUI(ユーザインターフェース)を指す場合もあれば,そのUIの裏側(バックエンド)にあるシステムを指す場合もあります。

本連載では,Google,Yahoo!などを代表とする検索エンジンの裏側のしくみに着目し,検索エンジンというシステムのアーキテクチャやその内部で使われているデータ構造やアルゴリズムを,近年の手法や研究事例などを交えて解説していきたいと思っています。

検索エンジンとは

検索エンジンには,さまざまな種類があります。GoogleのWeb検索のようなものは,一般的に全文検索エンジンと呼ばれます。その他にも,画像検索エンジン,動画検索エンジンなど,多くの検索エンジンが存在します。本連載で紹介するのも,もちろん全文検索エンジンについてです。

では,この「全文」とはどういう意味でしょうか?

答えは単純で,全文とは「全」部の「文」という意味になります。つまり,検索を行いたい対象はテキスト文書の全部の文であるという場合は全文検索と呼びます。そして,そのような全文検索を実現するシステムが全文検索エンジン/全文検索システムと呼ばれます(英語では,full-text search engine/full-text search systemと呼ばれます)。全部の文を検索するといっても,普段Google,Yahoo!などを使って指定したキーワードを含むWeb上のあらゆるページを検索している私たちにとっては,あたりまえのことだと感じるのではないでしょうか。

また,補足になりますが,画像/動画検索エンジンでは,画像・動画の特徴量を使って検索を行うといった処理が行われているようです。しかし,画像検索・動画検索と呼ぶ場合でも,画像や動画の周辺のテキスト情報や画像のメタ情報を使って検索している場合はテキスト情報を検索していることになるので,正確には全文検索エンジンとなります。

以降本連載では,「検索エンジン」と書いた場合は全文検索エンジンを指します。

さまざまな全文検索エンジン

近年,検索エンジンはいろいろな場面で使われています。

もっとも身近なWeb検索をはじめ,メール検索やデスクトップ検索,そして特許検索やブログ検索などのドメイン特化型検索などが挙げられます(図1)。

図1 検索の用途と規模

図1 検索の用途と規模

これらはすべて検索エンジンとしての基本となる仕組みは同じですが,規模やユースケースの違いから異なるアーキテクチャやデータ構造をとることがあります。

たとえば,メール検索やデスクトップ検索では,保存・検索したい文書量はそれほど多くありませんが,新しいメールや文書が追加されたら,それらをすぐに検索できるようしたいと思います。一方,Web検索では,大量の文書を保存しなければなりませんが,Web上にHTMLページが1つ追加されても,それが検索できるまでには多少の時間がかかっても許容できると思います。

このように,一言に全文検索エンジンと言っても,さまざまな形態や種類があります。本連載では,中規模から大規模の検索エンジンに主に焦点を当てて,解説を行っていきたいと思います。

著者プロフィール

山田浩之(やまだひろゆき)

日本IBM株式会社を経て,ヤフー株式会社等で検索エンジンの開発に従事。現在は大学院でデータベース・情報検索の研究を行う。また,オープンソースで全文検索エンジンLuxやデータベースマネージャLux IOの開発を行っている。

コメント

コメントの記入

パスサポ

多数の情報処理技術者試験対策書籍の発行実績を誇る技術評論社がお届けする,資格試験合格サイト「めざせ! 情報処理試験 パスサポ」が開設されました。

ピックアップ

サクセスストーリーに続く,快適サーバー運用管理のヒント!

データの増大,煩雑な管理,システムダウン,セキュリティなど,迫りくる課題からシステム管理者の負担を軽くするポイントを解説します。

gihyo.jp インフラエンジニア情報局

ネットワークやITにかかわるあらゆる業種で必要とされるインフラエンジニアに向けた技術情報や心構え,その魅力について多角的に紹介。

テストエンジニア ステーション

いま,ITに関わるあらゆる開発業務で注目されつつあるテスト系エンジニアをターゲットにしたコンテンツサイトを展開します。

一行クイックアンケート

gihyo.jpで取り上げてほしいネタは?

※検索はページ右上の検索ボックスをご利用ください。

その他の連載

読むウェブ ~本とインタラクション

ディスプレイで読む活字とそのインタラクション(interaction:相互作用)について,最新Webを紹介しながら読み解いていく。

いま,見ておきたいウェブサイト

この連載では,国内外の最新のウェブサイトを隔週更新で取り上げ,これら最新サイトの特徴や素晴らしい部分を,さまざまな角度から解説していきます。

Windows phoneアプリケーション開発入門

Windows Marcketplace for Mobileがサービス開始され,作成したアプリケーションを個人でも世界をターゲットに公開できる環境が整ってきました。これを機にWindows phoneアプリケーションの開発をしてみませんか?

ここは知っておくべき!Windows Server 2008技術TIPS

5年ぶりのサーバOSとなったWindows Server 2008が出荷されて早2年。2009年にはR2が出荷され,再び注目を集めています。発売前から実施したトレーニングによって感じた,インフラエンジニアの方々に知っておいていただきたい機能を中心にご紹介します。

キーパーソンが見るWeb業界

本連載はWeb Site Expert/gihyo.jpとの連動企画です。阿部淳也, 長谷川敦士, 森田雄のお三方による,Web業界をテーマにした座談会です。

きたみりゅうじの聞かせて珍プレー

ソフトウェア開発の現場で体験したトホホな失敗,思わずうなる珍プレーをきたみりゅうじ氏が四コママンガで紹介。みなさんからの投稿もお待ちしてます!

ActionScript 3.0で始めるオブジェクト指向スクリプティング

野中文雄氏が,簡単なスクリプトは書いたことがあるという初級者を対象に,ActionScript 3.0の基本からクラス定義までを解説します。

まだ間に合う「ITパスポート」受験対策 原山先生の短期合格塾

この連載では,4月18日のITパスポート試験の受験に向けて,短い期間で効率良く受験対策を行う方法や,確実に得点するための裏ワザなどを伝授していきます。

連載一覧

gihyo.jp

  • DEVELOPER STAGE
  • ADMINISTRATOR STAGE
  • WEB+DESIGN STAGE
  • LIFESTYLE STAGE
  • SCIENCE STAGE
  • NEWS & REPORT

書籍案内

  • 新刊書籍
  • 書籍ジャンル一覧
  • 書籍シリーズ一覧
  • 新刊ピックアップ
  • ロングセラー
  • 電脳会議

定期刊行物一覧

  • Software Design
  • WEB+DB PRESS
  • Web Site Expert
  • 組込みプレス