連載
検索エンジンを作る
いまや誰もがコンピュータに向かって必ず使う「検索」。その検索を行う心臓部といえるのが検索エンジンです。この連載は,既存の検索エンジンの機能にあきたらず,自ら検索エンジン作りに乗り出した技術者の貴重な体験記です。
- 第20回 転置インデックスの実装(その2)
- ブロックの拡張問題
- FINDSPOTの初期の実装
- ハードディスクのスピード
- 現在のFINDSPOTの実装
- 次回予告
2008年11月21日
- 第19回 転置インデックスの実装
- 転置インデックス
- FINDSPOTの転置インデックス構造
2008年10月20日
- 第18回 プロパティ検索式の最適化ポイント
- プロパティ最適化のポイント
- 検索エンジン側のプロパティ検索の最適化
2008年9月8日
- 第17回 プロパティ検索式の最適化
- アーカイブシステムという側面
- 権限検索の例
- 検索式の最適化
2008年8月14日
- 第16回 テキスト情報の抽出[その3]
- IFilterの構造
- IFilterの種類
- IFilterの関連ツール
- IFilter経由でのテキスト情報の抽出
2008年7月16日
- 第15回 テキスト情報の抽出[その2]
- アプリケーション固有の文書ファイル型式
- 商用のテキスト抽出ライブラリ
- フリーソフトウェアによるテキスト抽出
- OLEコントロールを使う方法
- Mac OS XのSpotlightインポータ
- 次回予告
2008年6月9日
- 第14回 テキスト情報の抽出[その1]
- 文書フィルタ
- テキストファイル文書フィルタ
- HTML文書フィルタ
2008年5月19日
- 第13回 検索結果の表示
- 検索結果の表示
2008年4月8日
- 第12回 近接検索機能
- 近接検索の利用価値
- Z39.50を参考に
- FINDSPOTの近接検索機能
- 近接演算子による検索式の例
2008年3月3日
- 第11回 文書プロパティの検索
- プロパティ検索式
- デフォルト検索プロパティ
2008年1月31日
- 第10回 文書プロパティと文書フィルタ
- 文書プロパティとカスタマイズ性
- 文書フィルタ
- 文書プロパティのスキーマ情報
- 文書フィルタによる検索エンジンのカスタマイズ性
- 文書フィルタの外部配置
2007年12月27日
- 第9回 検索と論理式[その2]
- NOT条件
- OR条件
- 複数条件と括弧
- NOT条件によるノイズ語の排除
- ノイズ語の自動除去に関する課題
2007年12月3日
- 第8回 検索と論理式
- 検索式のコンセプト
- 文字列
- AND条件
- 文書集合
2007年11月5日
- 第7回 曖昧検索機能
- 曖昧検索
- 曖昧検索のしくみ
- まとめ
2007年9月25日
- 第6回 N-gramと形態素解析との比較
- 2つの手法の概要
- 完全一致の検索
- 特殊用語
- 検索ノイズ
- 活用語尾対応
- 複数言語対応
- 転置インデックスのデータサイズ
- 転置インデックス作成時間
- まとめ
2007年8月13日
- 第5回 N-gramのしくみ
- N-gramによる見出し語の切り出し
- 文字列の出現位置情報
2007年7月18日
- 第4回 形態素解析のしくみ
- 全文検索の方式
- 見出し語の切り出し
- 分かち書きと形態素解析
- 形態素解析の問題点
2007年6月13日
- 第3回 商用検索エンジンの開発へ
- 開発方向の模索
- 見えてきた方向性
2007年5月28日
- 第2回 飛行機の中で
- 最初のコードは365行
- 深夜のスターバックスにて
2007年5月7日
- 第1回 こんな検索エンジンが欲しい!
- きっかけは顧客の要望から
- 既存の検索エンジンの不満点
2007年4月27日