玩式草子─ソフトウェアとたわむれる日々

第81回 「お講」文書をディジタル化する[その2]

この記事を読むのに必要な時間:およそ 3 分

ここしばらく急いで紹介した方がいい話題が続いたためずいぶん間が空いてしまったものの,今回は去年の夏ごろ取りあげた古文書をディジタル化するという話題の「その2」をお送りします。

この話題を取りあげた背景や「お講」については「その1」の回を見ていただくこととして,今回は古文書を読みやすくするために,スキャナで取り込んだ画像データをどのように加工したかを中心に紹介します。

画像ファイルの加工と印刷

「その1」で紹介したように,手元に伝わっている「お講」文書は半紙大の紙を長尺にそって2つ折りにして綴じ,横向きに使って表裏に縦書きで書き込まれています。スキャンは表裏それぞれに行ったものの,まとめて見れた方が便利だろうと表裏を合わせて1枚の画像ファイルにしています。

図1 ⁠お講」文書をスキャンした例

図1 「お講」文書をスキャンした例

細部まで見れるようにスキャン時の解像度は300dpiにしたので,合成した画像ファイルはおよそ4100×3100ピクセル,フルカラーのPNG形式で保存すると,1枚の画像ファイルが20MB弱程度です。当初はこの画像ファイルをディスプレイに表示して,

  • 「最初は『文政四』文政は年号だから,次の丸いのは『年』だろうな」
  • 「その次は巳年の『巳』「極月』は12月のことかな」
  • 「⁠伊勢田御年貢』の行は読めるけど,その間にある2文字くらいは何だろう?」
  • 「その次は『免○四?』…」

とやってたものの,縦書きでフリーフォマットに書かれている上,読める所の方が少ない文書なので,このままだとテキストファイルに書き起こすことは難しそうです。そのため,読み取れる部分をいったん紙に清書してみることにしました。

紙に清書するなら画像ファイルも印刷しておくと直接比較できて便利でしょう。そう考えて画像ファイルを印刷してみたものの,スキャンしたままのフルカラーの画像では変色した紙の色が邪魔になる上,インクもバカになりません。そのため,印刷用にはフルカラーの画像ファイルを白黒の2階調に変換してみることにしました。

変換するのが数枚程度ならgimp等の画像編集ソフトを使うのが簡単でしょうが,数十枚規模になると一々手作業でやるのは大変です。そこでnetpbmを使って一括処理することにしました。

netpbmはこの連載でも取りあげたことがある汎用的な画像変換ツールで,単機能なコマンドをパイプで組み合わせて複雑な作業を実現する,いわゆる「UNIX哲学」に基づいて設計されています。

フルカラーのPNGファイルを白黒にする場合,pngtopnmでいったんPNM形式にしてからpnmtopgmでグレースケールに変換すればよさそうです。出力結果は元と同じPNG形式にすることにすれば,こんなコマンドラインで変換できます。

$ pngtopnm color.png | pnmtopgm | pnmtopng > gray.png

こうして変換した結果を見ると,確かに白黒にはなったものの,全体的にくすんだ感じで文字があまり明瞭ではありません。もう少し全体を明るく,コントラストを強調したいところです。

netpbmには画像の明るさを変えるためのppmbrightenコントラストを調整するppmnormグレースケールを白黒2値のデータにするpamditherbwpamthresholdなど,さまざまなコマンドが用意されています。これらのコマンドをどう組み合わせるのがいいか,いくつか試してみたところ,いったんグレースケールに変換してからpamthresholdで白黒2値の形式にするのが一番よさそうだったので,以下のようなコマンドラインで画像を白黒にしてから印刷することにしました。

$ pngtopnm color.png | pnmtopgm | pamthreshold -simple -threshold 0.4 | pnmtopng > gray.png

変換した結果を1枚の画像にまとめるとこんな感じになります。白黒2値の画像では元画像にあった資料の質感は無くなっているものの,印刷するにはこれぐらいメリハリがあるほうがよさそうです。

図2 元のカラー画像とグレースケール化,白黒2値化した各画像

図2 元のカラー画像とグレースケール化,白黒2値化した各画像

これから先はアナログな作業で,⁠くずし字解読辞典』などを参考にそれぞれの文字を読み解き,読めない文字は○にして紙に拾っていきます。この文書の場合,伊勢講のための年貢米を誰がどれだけ負担したかの記録のようで,⁠何升何合」といった数字の部分はなんとか読めるものの,その下にある人名らしい部分ほとんど読めませんでした。

図3 ⁠お講文書」を書き起こした例

図3 「お講文書」を書き起こした例

ある程度内容を持った文書なら前後の文脈から読めない文字を推測することも可能なものの,今回扱っている文書はまとまった意味を持たないメモ書き程度の内容なので,人名のような固有名詞を読み解くのは難しそうです。

著者プロフィール

こじまみつひろ

Plamo Linuxとりまとめ役。もともとは人類学的にハッカー文化を研究しようとしていたものの,いつの間にかミイラ取りがミイラになってOSSの世界にどっぷりと漬かってしまいました。最近は田舎に隠棲して半農半自営な生活をしながらソフトウェアと戯れています。

URLhttp://www.linet.gr.jp/~kojima/Plamo/index.html

コメント

コメントの記入