オープンソースの電子書籍管理ソフト「Calibre」を使いこなそう!

第5回 Calibreで青空文庫を入手&変換する

この記事を読むのに必要な時間:およそ 2 分

ぼくも知らなかったのですが,Gihyo Digital Publishingと言う技術評論社の電子出版サイトがオープンしましたね。このサイトでは,DRM無しのEPUBでもダウンロードができる本もあるのがありがたいです。

早速,無料コンテンツの『Cプログラミング入門』をダウンロードしてみました。CalibreでMOBIファイルに変換してKindleに転送したところ,ほぼきちんと読めています。すばらしいですね。このようなEPUB等での電子出版が日本でも,もっと流行るといいのにと思います。

Calibreで青空文庫を変換する

さて,今回はCalibreを使って青空文庫や他の英文書籍ストアから書籍を入手し,コンバートして見ましょう。

ご存知の方も多いとは思いますが,青空文庫について一応説明しておくと,日本語の著作権切れの文章を,ボランティアで電子化し配布しているサイトです。今回はこのサイトから書籍を取得してCalibreに入れ,変換してKindleに転送するわけですが,実はKindle向けには青空文庫を読みやすい縦書きPDF化してくるれるサービス青空キンドルと言うサービスがすでにあります。その上,青空文庫のXHTMLフォーマットの物を単純にCalibreに入れただけでもそこそこ読める状態にはなります。そのため,ここではCalibreの変換機能のちょっと高度な使い方の例として,青空文庫のXHTMLフォーマットの文章を変換してみます。

まずCalibreに,適当な青空文庫からダウンロードした文章のXHTMLファイルを,⁠書籍を追加」ボタンで追加してください。この時点では追加されたXHTMLファイルが内容を変えずにzipアーカイブ化されてCalibreに登録されます(準EPUBといった扱いでしょうか)⁠

次に変換機能を使ってMOBIに変換します。Calibreの変換機能には色々なオプションが指定できます。XHTMLファイルを追加した時点ではファイルの内容はそのままですが,ここで変換機能のオプションを指定し読みやすいように設定していきます。

書籍フォーマット変換ダイアログ。⁠検索&置換」部分

書籍フォーマット変換ダイアログ。「検

「本の変換」ボタンを押して変換ダイアログを表示しましょう。最初に,書籍の書誌情報編集のオプションが表示されます。Calibreのヴァージョン等によっては,タイトルがおかしい(タイトル+著者名になってしまう)場合があるのですが,もしその場合には,ここでタイトルを修正しておいてください。

「改丁」「改ページ」の表記を実際の改ページに

ここから本格的に文章(XHTMLファイル)を変える設定をしていきます。最初に,⁠改丁」⁠改ページ」の表記を実際の改ページに変換しましょう。変換ダイアログの「検索&置換」の部分を開いてください。

ここでは正規表現を使った検索+置換の設定が行えます。3つの検索+置換テキストのフィールド組みがありますが,その一番上「最初の表現」に以下の正規表現を入れます。

<span *class=['"]notes['"]\w*>[#改(丁|ページ)]</span>

これで「改丁」⁠改ページ」の表記にマッチします。そして「変換するテキスト」の部分に以下のテキストを入れます。

<span style="page-break-before: always"> </span>

これにより,変換時にHTML(CSS)でページブレイクが入ります。

ルビの削除

次に,この検索+置換機能を使って,ルビを取ってしまいます。と言うのも,ルビつきのままにしてもKindleではルビとして表示されず,⁠漢字(かんじ)⁠と言うように括弧書きで表示されるため,見づらくなるのです。これを避けるために,ここではルビを全部取ってしまうことにします(もちろんこのままが良い時には,単純にこの設定をしなければOKです)⁠

以下を検索の部分に入れて,置換テキストの部分には何も入れないでください。これでルビが取れて漢字だけになるはずです。

</?ruby>|</?rb>|<rp>[^<]+</rp>|<rt>[^<]+</rt>

不必要なマークアップの削除

その他,青空文庫のXHTMLファイルには[#ページの左右中央]などのフォーマット指示のマークアップが色々と入っています。それらが目障りな場合にはすべて取ってしまうこともできます。検索の部分に次のテキストを入れてください(置換テキストには何も入れません)⁠

<span class="notes">[#.*]</span>

著者プロフィール

西村亜土(にしむらあど)

さまよえるプログラマー?

フリーランスで,iPhone開発,Android開発,Webアプリ開発などのプログラム開発を行っている。最近は住所不定でよく変わる。現在は鎌倉でボーっとしている。とうとうcalibreの翻訳が一通り終わった!でも毎週リリースされるので,ほっておくとあっという間に新しい文章がたまりそう。なんだか庭の手入れ(雑草取り)みたいだ。

Twitter:@adonishi
Web: http://www.sig.or.jp/~ado/

コメント

コメントの記入