Ubuntu Weekly Recipe

第577回 Tesseract OCRで文字認識をする

この記事を読むのに必要な時間:およそ 2 分

精度

気になる精度はいかがなものでしょうか。目視では正確性に不安があるため,差分を表示するツールであるMeldを使用して確認します。なお先ほど保存したテキストファイルには改行やスペースが含まれているため,事前にこれを除去してください。

サンプルテキストもLibreOffice Writerの機能でテキストファイルとして保存するか,あるいはエディター(gedit)に貼り付けて保存してもいいでしょう。

MeldをUbuntuソフトウェアあるいはコマンドラインからインストールし(パッケージ名はmeld⁠⁠,起動後それぞれのファイルを指定すると差分が表示されます図8図9⁠。スペースを除いて同一にすると637文字であり,うち9文字が誤りという結果になりました。すなわち正解は628文字で,628÷637で0.985871,約98.6%の正解率です。もちろんサンプルがこれだけなので断言はできないものの,かなりの精度であるとはいえると思います。

図8 Meldを起動し,差分を表示するテキストを指定する

画像

図9 差分がわかりやすく表示される

画像

ちなみに誤った文字は次のとおりです。⁠闇」は2回間違えているので全部で9文字の誤りとなります。

捻→捨
靭→各
罰→太
躓→叶
闇→間
黒→い
望→過
綱→網

縦書きの場合はスペースが大量に入るので確認しにくいのですが,整形して確認すると誤りは7文字と,横書きよりも精度が高かったです。

ちなみに誤った文字は次のとおりです。ひらがなを間違えたのが横書きにはなかった特徴でしょうか。

聞→間
捻→太
靭→朝
翻→番
躓→中
闇→間
ぴ→び

サンプルとしては適切な量ではありませんが,精度の高さを垣間見ることはできました。紙の書類の山に埋もれて困っているような場合は,是非とも試してみてください。

著者プロフィール

あわしろいくや

Ubuntu Japanese TeamとLibreOffice日本語チームのメンバー。LibreOffice,VirtualBox,Joplin,Budgieデスクトップなどの翻訳を手がける。技術同人サークルteam zpn主宰。ほか原稿執筆を少々。