検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏

サポートページ

この記事を読むのに必要な時間:およそ 0.5 分

ダウンロード

本書のサンプルファイルは,以下のリンクよりダウンロードできます。

ダウンロード
wiser-20140928.tar.gz

ファイルをダウンロード後,適宜解凍してご利用ください。

また,本書で利用するWikipediaのデータは以下のリンクからダウンロードできます。

http://dumps.wikimedia.org/jawiki/

お詫びと訂正(正誤表)

本書の以下の部分に誤りがありました。ここに訂正するとともに,ご迷惑をおかけしたことを深くお詫び申し上げます。

(2015年11月4日更新)

P.20 表1-3見出し

どの単語で
どの単語

P.23 「転置インデックスから単語を探す」9行目

各ポスティングリストが含まれる文書IDの共通集合を取ればよいのです。
各ポスティングリスト含まれる文書IDの共通集合を取ればよいのです。

P.27 小見出し

N-gram(q-gram)よる分割
N-gram(q-gram)よる分割

P.32 図1-5 一番左の枠

Google
engine

P.42

最初に、文書ごとにレコード<単語、文書ID、文書における単語のTF>を生成し、
最初に、各文書において、当該文書を構成する単語ごとにレコード<単語、文書ID、文書における単語のTF>を生成し、

P.42 リスト1-4 5行目

file, w
file, word

P.42 ①の示す範囲

5行目のみ
4行目から6行目(for all word∈ d do ~ end for)

P.46 最終行

あるしょう。
あるしょう。

P.54 「Debianの場合」の実行例

> aptitude install build-essential sqlite3 libsqlite3-dev bzip2
> aptitude install build-essential sqlite3 libsqlite3-dev libexpat1-dev bzip2

P.55 1行目

HomeBrew
Homebrew

Bは小文字が正しいです。

P.57 1行目

wikipedia
Wikipedia

※先頭のwは大文字

P.57 下から4行目

wikipedia.db
wikipedia_1000.db

P.58 2つめの実行例

articles
.xml
articles.xml

「articles」の後ろに改行が入らないのが正しいです。

P.58 実行例2

jawiki-●●●●●●●●-pages-article.xml
jawiki-latest-pages-articles.xml

P.58 最終行

time grep 'Wikipedia' jawiki-latest-pages-articles.xml
time grep 'Wikipedia' 1000.xml

P.73 9行目および図3-2キャプション

きょうはうはうは。
きょうはうはうは

末尾の句点が不要です。

P.73 図3-2

以下の図のようになります。図をクリックすると大きく表示できます。

P73_図3-2

P.106 2行目

10 = 5 × 1 + 4
9 = 5 × 1 + 4

P.140 下から3行目

以外と面倒
意外と面倒

P.162 図7-1の「適合率」の説明

適合率=C/A
適合率=C/B

P.162 図7-1「再現率」の説明

再現率=C/B
再現率=C/A

P.170 コラム1行目

GPL 2.1
LGPL

P.173 本文9行目

何らかしら
何かしら

「何」の後ろの「ら」が入らないのが正しいです。

P.176 下から3行目

クエリ対しても
クエリ対しても

P.181 本文2行目

作る必要あります
作る必要あります

P.189

Yanら(参考文献7)
Yanら

※「(参考文献7)」削除

P.191 下から5行目

実装の容易であり
実装容易であり