玩式草子─ソフトウェアとたわむれる日々

第48回電子書籍と資料としての

ここ数年、6月の中旬から8月始めまで非常勤講師として出講しているため、この時期は授業の準備で忙殺されています。今年もまたその時期がやってきました。

担当しているのが情報社会特論という、我々が今生きている「情報社会」を、その意味や成り立ちから考えよう、という大きなテーマの科目なもので、扱う範囲も社会学や文明論から、ハッカーやインターネットの歴史、⁠初音ミク」から知的財産権の諸問題までと幅広く、資料の整理だけでも一苦労です。

昨年までは、授業で扱うテーマの主要文献について、配布資料等でタイトルやISBNを紹介すると共に、⁠こんな本だよ」と示すために実物を授業中に回覧したりしていました。しかし、ずっしりと重みのあるハードカバー本を何冊も、汗だくになりながら大学まで持って行くのも大変です。

そこで今年は、それらの文献を手元のスキャナで自炊して、電子書籍化してみることにしました。本好きの人間としては、愛着のある本をバラバラにしてしまうことに当初は葛藤があったものの、ある程度作業を進めてみると、電子書籍には紙の本にはない便利さもあることに気づきました。今回はそのあたりの話をしてみましょう。

書籍自炊のノウハウ

以前にも紹介したように、手元ではLinux上のxsaneから、本文の部分はスキャナ専用機であるPFUのScanSnap S1500、カバーや表紙はインクジェットプリンタとの複合機であるHP OfficeJet Pro8500A、と2種のスキャナを使い分けています。

スキャン時のパラメータはページの状態や厚みによって多少調整するものの、本文部分をスキャンするScanSnapではガンマ値を1.95、明度とコントラストを共に35前後、とかなり明るめにしています。

図1 ScanSnap S1500用の設定
図1 ScanSnap S1500用の設定

ここまで明度やコントラストを上げると、白飛びしたような感じになってページの質感は無くなりますが、地のページは白くなった方が印刷された文字は読みやすいようです。特に古めの文庫本では、紙が薄くて裏うつりしやすい上に黄変(黄ばみ)が生じたりしていることが多いので、さらに明度とコントラストを強めてスキャンすることもあります。

図2 明度とコントラストを35(左)から50(右)まで上げた例
図2 明度とコントラストを35(左)から50(右)まで上げた例

解像度300dpi、グレースケールでスキャンし、結果をJPEG形式で保存すると、文庫本のサイズで横1270ドット、縦1750ドット程度になって1ページあたり約220KBA5サイズの本で横1750ドット、縦2460ドット程度、1ページあたり約300KBの大きさになるようです。

300dpiという解像度は、手元で使っているPCのディスプレイ(100dpi前後)や電子書籍のリーダーに使っている旧Nexus 7(216dpi)と比べてもかなり高めなのですが、後述するように、後から解像度を下げることは簡単なので、スキャン時は電子書籍のマスターコピーを作るつもりで高めの解像度にしています。

カバーや表紙はA4サイズのフラットヘッド・スキャナを持つ、HPの複合機OfficeJet Pro8500Aでスキャンしています。解像度はScanSnapと同じ300dpiなものの、明度やコントラストはやや控えめなフルカラーモード、スキャン結果は本文と同じJPEG形式で保存しています。

最終的にカバーや表紙、本文を一つのZIP形式のアーカイブにまとめるわけですが、元々圧縮率の高いJPEG形式で保存しているため再圧縮はほとんど効かず、アーカイブファイルは先に示したページ単位のファイルサイズをページ数にかけたくらいの大きさになるようです。具体的には、200ページくらいの文庫本や新書版で50MB程度、300ページくらいのA5サイズのハードカバー本で100MB程度です。PDF形式の電子書籍だとA5サイズ300ページでも6MBくらいに収まるので、画像形式の自炊書籍では、同じ内容を示すのに10倍以上の容量が必要になるようです。

自炊電子書籍のメリット

一方、画像形式で保存することには大きなメリットもあります。画像形式の場合、各ページがひとつのファイルになっているので、書籍の一部分だけを取りだしてまとめ直したり、環境に合わせて解像度を調整することが簡単です。

たとえば、梅棹忠夫先生の『情報の文明学』という本の中から、日本の情報社会論の嚆矢となった「情報産業論」という論文だけを抜粋して、解像度を少し下げた状態でまとめ直したい、とします。

あらかじめ電子書籍リーダーで『情報の文明学』を開き、⁠情報産業論」はこの本の27ページから52ページに収められていることを確認しておき、適当な作業用ディレクトリでアーカイブファイルを展開します。

$ unzip ../情報の文明学\[梅棹忠夫_中央公論社_1988\].zip
 Archive:  ../情報の文明学[梅棹忠夫_中央公論社_1988].zip
 inflating: cover_0001.jpg
 inflating: cover_0002.jpg
 inflating: cover_0003.jpg
 ...

変換した画像ファイルを収めるディレクトリを用意して、netpbmツールを利用して画像ファイルを縮小します。

$ mkdir tmp
$ for i in `seq 27 52` ;do
> p="page_00"$i.jpg
> jpegtopnm $p | pnmscale 0.5 | pgmenhance -5 | pnmtojpeg > tmp/$p
> done
jpegtopnm: WRITING PGM FILE
jpegtopnm: WRITING PGM FILE
jpegtopnm: WRITING PGM FILE
....

これで、tmpディレクトリ以下に縦横が半分のサイズになった画像データが作成できました。

$ identify page_0029.jpg tmp/page_0029.jpg
page_0029.jpg JPEG 1544x2268+0+0 PseudoClass 256c 8-bit 214.3K 0.000u 0:01
tmp/page_0029.jpg[1] JPEG 772x1134+0+0 PseudoClass 256c 8-bit 91.5K 0.000u 0:01

一方、pgmenhanceによる強調処理がそれなりに効いていて、劣化はそれほど目立たないようです。

図3 オリジナル(左)と解像度を下げた画像(右)
図3 オリジナル(左)と解像度を下げた画像(右)

この抜粋部分を新しくアーカイブファイルにまとめ直します。

$ cd tmp; zip ../梅棹忠夫_情報産業論.zip *.jpg
 adding: page_0027.jpg (deflated 53%)
 adding: page_0028.jpg (deflated 1%)
 adding: page_0029.jpg (deflated 5%)
 ...

これで論文集から必要な論文のみを抜粋することができました。

最近の大学では、LMS(Learning Management System)として、授業の進捗を管理したりこの種の資料を配布する仕組みが用意されています。そこで今年の授業では、いくつかの参考文献からこのような形で作成した抜粋を配布し、学生に実際に読んでもらって、それを元にディスカッションするような試みをしてみました。

筆者が学生だったころ、授業やゼミでこのような課題をやろうとすると、図書館等で借りてきた資料を人数分コピーするところから始めなければなりませんでした。しかし、自炊書籍を使えばそのような手間が大きく削減できるようです。

自炊書籍のビューワ

前回も紹介したように、手元では旧型Nexus 7を電子書籍のビューワにしています。Nexus 7にはAmazon Kindleや楽天koboのAndoroid用アプリも入っていますが、自炊書籍の閲覧にはComittoNというコミックビューワを利用しています。

図4 ComittoNの書籍選択画面
図4 ComittoNの書籍選択画面

ComittoNは自炊向けコミックビューワと銘打っている通り、ZIP形式やRAR形式でアーカイブされたJPEGやPNG形式の画像データを、展開せずにそのまま表示することができます。

一方、Linux環境では、KDE用のファイルビューワgwenviewがComittoN同様にアーカイブファイル中の画像データを直接表示できるものの、gwenviewはKDE環境に依存していてXfceやMateのような非KDE環境では利用できません。

授業で使っているノートPCにはKDEを入れていなかったので、さてどうしたものか、と調べた結果、Comixというソフトウェアを見つけました。

図5 Comixのライブラリリスト画面
図5 Comixのライブラリリスト画面

Comixは名前が示すようにコミックに適した画像ビューワで、KDEの入っていない環境でも軽快に動作します。しかもこのソフトウェアはPythonPyGTKだけで書かれており、Python+PyGTKでこれだけのことができるのか、と驚かされました。

加えてComixはgwenviewには無い「見開き表示」の機能を持っているので、自炊データを元の書籍のように表示することもできます。

図6 Comixの見開き表示画面
図6 Comixの見開き表示画面

Comixを使えばKDEの入っていないノートPCでも、自炊書籍を自由に利用することが可能になりました。

市販電子書籍との比較

授業で使っている参考文献を自炊してみてもっとも強く感じたことは、資料としての本の価値です。

今回自炊した書籍の中で一番古かったのは、1982年に出版されたA.トフラーの『第三の波』でした。1982年というと今から約30年前ですし、実のところ、この本は5、6年前に古本屋で見つけて購入した記憶があります。

30年の時を経て、多少色褪せてページも変色してきてはいるものの、600ページ弱の中公文庫は今でも問題なく読めますし、明度やコントラストを調整してスキャニングすれば、退色や黄ばみも気にならない程度に電子化することができました。

紙を束ねた「本」が30年経っても何ら情報を失なっていないのに対し、最近の記憶媒体の寿命は何と短いのでしょう。

手元にあるものだけを見ても、VHSやβのビデオテープは再生するビデオデッキがありませんし、レーザーディスクもプレイヤーは壊れてしまいました。カセットテープはまだ再生可能ですが、MDデッキは動かなくなって、携帯用のMDプレイヤーも引き出しの奥に眠ったままです。

5.25インチのフロッピーディスクを読めるドライブは無くなって久しいし、ZIPディスクやMOディスクも読み取る装置は処分してしまいました。CDは保存状態さえよければまだ大丈夫でしょうが、古いCD-Rでは記録層が剥離してしまったものもあります。

そういう風に考えると、⁠本」という長期保存が可能な記憶媒体を分解して、電子化してしまったことは果して正しいことだったのだろうか、という気すらしてきます。

一方、最近の電子書籍を眺めると、Amazon Kindleや楽天koboは、DRMによる制限を加えて独自の電子ブックリーダや対応アプリが無いと読めないようになっています。それら独自仕様の電子ブックリーダやアプリケーションは、果して30年後にも存在し、30年後の読者に情報を提供できるのでしょうか?

記憶媒体の盛衰から考えると、⁠本」という存在が何十年、何百年経過しても価値を失なわない最大の理由は、専用装置が無くても読み出せるという点に尽きるでしょう。

電子書籍をそのような状態に保つためには、専用リーダは不要でDRMなし、仕様が公開され広く利用されている汎用的なフォーマットで保存する、という形にするしか無いように思います。

その意味で、手元の自炊書籍のように、JPEGの画像データをZIP形式で保存することにしておけば、ファイルがきちんと保存される限り、30年後にでも読み出すことはできそうです。

市販の電子書籍で同様の方針を取っているのは、DRM無しのPDFファイルを(購入者のウォーターマーク付きで)提供しているオライリー・ジャパン技術評論社達人出版会くらいなものでしょうか。これらの出版社がコンピュータやソフトウェア関連の書籍を中心に扱っている出版社だ、というのは決して偶然ではないでしょう。

専用のリーダーやアプリで客を囲いこみ、機能や価格、品揃えのみを競いあっている電子書籍は、⁠本」の持っていた重要な価値を忘れているように感じてなりません。

おすすめ記事

記事・ニュース一覧