全文検索エンジンは,
文書フィルタ
連載の第10回目にFINDSPOTではカスタマイズ性を向上させるために,
文書フィルタは引数で入力ファイル名と出力ファイル名を受け取り,
FINDSPOTには,
テキストファイル文書フィルタ
テキストファイルはテキストの実体なので,
FINDSPOTのテキストファイル用の文書フィルタでは,
us-ascii
utf-7
utf-8
utf-16
utf-32
utf-16be
utf-16le
utf-32be
utf-32le
iso-2022-jp
euc-jp
Shift_JIS
cp932
EUC-JP-MS
iso-8859-1
iso-8859-2
iso-8859-3
iso-8859-4
iso-8859-5
iso-8859-6
iso-8859-7
iso-8859-8
iso-8859-9
iso-8859-10
iso-8859-13
iso-8859-14
iso-8859-15
複数の文字コードのテキストファイルが検索対象となっている場合にも対応できるようにするために,
utf-8
utf-16
utf-16le
utf-16be
iso-2022-jp
Shift_JIS
euc-jp
文字コードの自動判定
文字コードの自動判定機能は,
『日本語情報処理』Ken Lunde著/春遍雀來,鈴木武生訳/ソフトバンク/ISBN4-89052-708-7
さらに,
日本語の文字コードの自動判定はどうしても100%完全というわけにはいかず,
たとえば,E0 E8 E0 E1
というバイト列になります。このバイト列は,
ファイル情報
ファイルサーバ上に置かれたファイルの場合には,