フリーOCRソフトとGoogle翻訳で図説の文章を読めるようにしてみた

先日南米のカストニアについて調べていて, 良さそうな書籍があったので購入した.
Uranie, Castnie e Saturnie di Roberto Vinciguerra

文章が全てイタリア語だったので, スキャンしたpdfから文章を抽出して, google翻訳に投げて読むことにした.

pdfから文章を抽出してテキストに落とすソフトはOCRソフトと呼ばれる.
Adobe社などが有料版を販売しているが, 検索するとフリーウェアもちらほら出てくる.
その中でも, 言語をこちらから指定することのできるRenee PDF Aide OCRを試してみた.
公式サイト

1. 書籍をスキャンしてpdf化する

プリンタのスキャン機能で, dpiは高めに720で

2. Renee PDF Aide OCRで処理


言語選択でイタリア語を選択. 出力はテキストファイルで.
OCRを使用にはチェック入れてください.
変換は数分で終わります.

3. 文章を整形


生成されるテキストはこんな感じ.

一語ごとに改行区切りされているのを, スペース区切りに変えたい.
OCRソフトの方で出力設定を変える方法が分からなかったので, スクリプトを書いた.

3.1 文字コードをutf-8に

スクリプトで文章を扱う上で, 文字コードはutf-8が扱いやすい.
適当なエディタでテキストを開き, 文字化けしていないことを確認した後, 文字コードをutf-8に指定して念のため別名で保存.

3.2 改行区切りをスペース区切りに


適当に書いたpythonコードを実行して, 改行区切りをスペース区切りに

3.3 実際の文章と照らし合わせて細かい修正

余計な部分を削って, 段落ごとにまとめる.

認識精度確認

  • イタリック体

元の文章

認識結果

学名のイタリック体は全滅, これは仕方ない.

  • 人名・大文字

元の文章

認識結果

人名などの変則的な大文字や特殊記号は僅かにおかしい.

  • 平文

元の文章

認識結果

本文はほぼ間違いが見当たらなかった. すごい. これは使える.

4. google翻訳に投げる

読める…読めるぞ…

これなら, 数十ページくらいの英語以外の文章を手作業で変換するのもそれほど苦じゃない印象.
フリーソフトでここまで出来ますよという報告でした.
以上.