Ubuntu Weekly Recipe

第22回  PDFの活用:PDFプリンタ・pdftk

この記事を読むのに必要な時間:およそ 3 分

PDFからテキストファイルに変換する(pdftotext)

時として,PDFに含まれる文字情報のみが必要になることもあります。このような場合にはpdftotextコマンドを用いてPDFからテキストファイルへ変換することができます。これは次のように利用します(以下は,⁠276.pdf」というファイルをテキストファイルへ変換する場合の例です)⁠

$ pdftotext 276.pdf 

引数を何も与えない場合,元のPDFファイルの拡張子を.txtに置き換えたものが出力結果になります(もともとのPDFファイルも残っています)⁠これにより,⁠276.txt」というファイルが生成されているはずです。

また,ターミナル上でPDFの内容を確認したい場合にも利用できます。ただし,ページャとしてlessを利用する場合,文字コードの問題で,正しくファイルを閲覧できない可能性があります。この場合lessではなく,lvコマンドを用いた方が良いでしょう。lvはデフォルトではインストールされていませんので,次のコマンドを用いるか,Synapticからインストールしてください。

$ sudo apt-get install lv

図5は,gihyo.jpのトップページをPDFプリンタを用いてPDFにし,それをpdftotextでテキストファイルに変換したものをlvで閲覧しているターミナルのスクリーンショットです。一部にレイアウトの崩れがありますが,プレビュー的な用途であれば実用的でしょう。

図5 テキストに変換したPDFの例

図5 テキストに変換したPDFの例

PDFファイルを画像に変換する(pdftoppm)

PDFファイルはデータの受け渡しには非常に便利ですが,場合によっては画像ファイルに変換したい場合もあります。このような場合はpdftoppmコマンドを用います。pdftotextと異なり,こちらは標準出力に変換結果が流し込まれます。自動的に保存してくれるわけではありませんので,以下のようにリダイレクトする形で利用します。

$ pdftoppm 276.pdf > 276.ppm

これにより,PDFファイル全体が画像に変換されて出力されます。ppmファイルはGIMPなどで扱うことができます。

PDFファイルを画像に変換する(Adobe Readerを使う場合)

PDFファイル全体ではなく,ごく一部分だけを切り貼りするために画像に変換したい場合もあります。このような場合はAdobe Readerに備えられた機能を用いるのが便利です。操作は次のように行います。

まず,切り抜きを行いたいPDFファイルをAdobe Readerで開きます。

図6のように,⁠ツール]⁠⁠選択とズーム]⁠⁠スナップショットツール]を選択します。これは,選択した範囲を画像としてクリップボードへ送りこむツールですので,必要な範囲を選択します。

図6 スナップショットツール

図6 スナップショットツール

選択した時点で画像データがクリップボードに送りこまれますので,GIMPなどへ貼り付けて保存します。GIMPを起動し,⁠ファイル]⁠⁠新規]「新規画像を作成」ダイアログを表示し,テンプレートから1600x1200等,利用しているモニタと同サイズのテンプレートを起動し,⁠貼り付け]を行います。そのままでは切り貼りした画像よりも大きな画像ファイルになってしまいますので,⁠画像]⁠⁠Crop to selection]を行い,トリムすると良いでしょう。

著者プロフィール

吉田史(よしだふみひと)

Ubuntu Japanese Team Member株式会社創夢所属。システム管理を中心にWindows/PC Unixを併用している。Ubuntu Japanese Teamではパッケージサーバの管理や翻訳などの作業を担当。