前回は形態素解析を使う検索エンジンのしくみについて説明しました。今回は,
N-gramによる見出し語の切り出し
前回は,
一方,
- 1文字:ユニグラム
- 2文字:バイグラム
- 3文字:トリグラム
N-gramによる見出し語の切り出しは,
FINDSPOTでは,
具体例を用いて説明しましょう。
今日 1
日は 1
は良 1
良い 1
い天 1
天気 1
気で 1
です 1
す。 1
。 1
別の
今日 2
日は 2
は大 2
大雨 2
雨で 2
です 2
す。 2
。 2
文書ID 1番と2番の文書を合算した索引情報は,
今日 1, 2
日は 1, 2
は良 1
良い 1
い天 1
天気 1
気で 1
です 1, 2
す。 1, 2
。 1, 2
は大 2
大雨 2
雨で 2
これがバイグラムによる転置インデックスです。
このようにして作られた索引情報を使って,
では,
「良い天気」
では