玩式草子─ソフトウェアとたわむれる日々

第48回 電子書籍と資料としての本

この記事を読むのに必要な時間:およそ 3 分

ここ数年,6月の中旬から8月始めまで非常勤講師として出講しているため,この時期は授業の準備で忙殺されています。今年もまたその時期がやってきました。

担当しているのが情報社会特論という,我々が今生きている「情報社会」を,その意味や成り立ちから考えよう,という大きなテーマの科目なもので,扱う範囲も社会学や文明論から,ハッカーやインターネットの歴史,⁠初音ミク」から知的財産権の諸問題までと幅広く,資料の整理だけでも一苦労です。

昨年までは,授業で扱うテーマの主要文献について,配布資料等でタイトルやISBNを紹介すると共に,⁠こんな本だよ」と示すために実物を授業中に回覧したりしていました。しかし,ずっしりと重みのあるハードカバー本を何冊も,汗だくになりながら大学まで持って行くのも大変です。

そこで今年は,それらの文献を手元のスキャナで自炊して,電子書籍化してみることにしました。本好きの人間としては,愛着のある本をバラバラにしてしまうことに当初は葛藤があったものの,ある程度作業を進めてみると,電子書籍には紙の本にはない便利さもあることに気づきました。今回はそのあたりの話をしてみましょう。

書籍自炊のノウハウ

以前にも紹介したように,手元ではLinux上のxsaneから,本文の部分はスキャナ専用機であるPFUのScanSnap S1500,カバーや表紙はインクジェットプリンタとの複合機であるHP OfficeJet Pro8500A,と2種のスキャナを使い分けています。

スキャン時のパラメータはページの状態や厚みによって多少調整するものの,本文部分をスキャンするScanSnapではガンマ値を1.95,明度とコントラストを共に35前後,とかなり明るめにしています。

図1 ScanSnap S1500用の設定

図1 ScanSnap S1500用の設定

ここまで明度やコントラストを上げると,白飛びしたような感じになってページの質感は無くなりますが,地のページは白くなった方が印刷された文字は読みやすいようです。特に古めの文庫本では,紙が薄くて裏うつりしやすい上に黄変(黄ばみ)が生じたりしていることが多いので,さらに明度とコントラストを強めてスキャンすることもあります。

図2 明度とコントラストを35(左)から50(右)まで上げた例

図2 明度とコントラストを35(左)から50(右)まで上げた例

解像度300dpi,グレースケールでスキャンし,結果をJPEG形式で保存すると,文庫本のサイズで横1270ドット,縦1750ドット程度になって1ページあたり約220KBA5サイズの本で横1750ドット,縦2460ドット程度,1ページあたり約300KBの大きさになるようです。

もちろん,ファイルの大きさはページの内容によって大きく変化します。

300dpiという解像度は,手元で使っているPCのディスプレイ(100dpi前後)や電子書籍のリーダーに使っている旧Nexus 7(216dpi)と比べてもかなり高めなのですが,後述するように,後から解像度を下げることは簡単なので,スキャン時は電子書籍のマスターコピーを作るつもりで高めの解像度にしています。

カバーや表紙はA4サイズのフラットヘッド・スキャナを持つ,HPの複合機OfficeJet Pro8500Aでスキャンしています。解像度はScanSnapと同じ300dpiなものの,明度やコントラストはやや控えめなフルカラーモード,スキャン結果は本文と同じJPEG形式で保存しています。

最終的にカバーや表紙,本文を一つのZIP形式のアーカイブにまとめるわけですが,元々圧縮率の高いJPEG形式で保存しているため再圧縮はほとんど効かず,アーカイブファイルは先に示したページ単位のファイルサイズをページ数にかけたくらいの大きさになるようです。具体的には,200ページくらいの文庫本や新書版で50MB程度,300ページくらいのA5サイズのハードカバー本で100MB程度です。PDF形式の電子書籍だとA5サイズ300ページでも6MBくらいに収まるので,画像形式の自炊書籍では,同じ内容を示すのに10倍以上の容量が必要になるようです。

自炊電子書籍のメリット

一方,画像形式で保存することには大きなメリットもあります。画像形式の場合,各ページがひとつのファイルになっているので,書籍の一部分だけを取りだしてまとめ直したり,環境に合わせて解像度を調整することが簡単です。

たとえば,梅棹忠夫先生の『情報の文明学』という本の中から,日本の情報社会論の嚆矢となった「情報産業論」という論文だけを抜粋して,解像度を少し下げた状態でまとめ直したい,とします。

あらかじめ電子書籍リーダーで『情報の文明学』を開き,⁠情報産業論」はこの本の27ページから52ページに収められていることを確認しておき,適当な作業用ディレクトリでアーカイブファイルを展開します。

$ unzip ../情報の文明学\[梅棹忠夫_中央公論社_1988\].zip
 Archive:  ../情報の文明学[梅棹忠夫_中央公論社_1988].zip
 inflating: cover_0001.jpg
 inflating: cover_0002.jpg
 inflating: cover_0003.jpg
 ...

変換した画像ファイルを収めるディレクトリを用意して,netpbmツールを利用して画像ファイルを縮小します。

$ mkdir tmp
$ for i in `seq 27 52` ;do
> p="page_00"$i.jpg
> jpegtopnm $p | pnmscale 0.5 | pgmenhance -5 | pnmtojpeg > tmp/$p
> done
jpegtopnm: WRITING PGM FILE
jpegtopnm: WRITING PGM FILE
jpegtopnm: WRITING PGM FILE
....

これで,tmpディレクトリ以下に縦横が半分のサイズになった画像データが作成できました。

$ identify page_0029.jpg tmp/page_0029.jpg
page_0029.jpg JPEG 1544x2268+0+0 PseudoClass 256c 8-bit 214.3K 0.000u 0:01
tmp/page_0029.jpg[1] JPEG 772x1134+0+0 PseudoClass 256c 8-bit 91.5K 0.000u 0:01

一方,pgmenhanceによる強調処理がそれなりに効いていて,劣化はそれほど目立たないようです。

図3 オリジナル(左)と解像度を下げた画像(右)

図3 オリジナル(左)と解像度を下げた画像(右)

この抜粋部分を新しくアーカイブファイルにまとめ直します。

$ cd tmp; zip ../梅棹忠夫_情報産業論.zip *.jpg
 adding: page_0027.jpg (deflated 53%)
 adding: page_0028.jpg (deflated 1%)
 adding: page_0029.jpg (deflated 5%)
 ...

これで論文集から必要な論文のみを抜粋することができました。

最近の大学では,LMS(Learning Management System)として,授業の進捗を管理したりこの種の資料を配布する仕組みが用意されています。そこで今年の授業では,いくつかの参考文献からこのような形で作成した抜粋を配布し,学生に実際に読んでもらって,それを元にディスカッションするような試みをしてみました。

筆者が学生だったころ,授業やゼミでこのような課題をやろうとすると,図書館等で借りてきた資料を人数分コピーするところから始めなければなりませんでした。しかし,自炊書籍を使えばそのような手間が大きく削減できるようです。

著者プロフィール

こじまみつひろ

Plamo Linuxとりまとめ役。もともとは人類学的にハッカー文化を研究しようとしていたものの,いつの間にかミイラ取りがミイラになってOSSの世界にどっぷりと漬かってしまいました。最近は田舎に隠棲して半農半自営な生活をしながらソフトウェアと戯れています。

URLhttp://www.linet.gr.jp/~kojima/Plamo/index.html

コメント

コメントの記入