pocket
line
hatebu
image
gallery
audio
video
category
tag
chat
quote
googleplus
facebook
instagram
search
envelope
heart
star
user
close
search-plus
home
clock
update
edit
share-square
chevron-left
chevron-right
leaf
exclamation-triangle
calendar
thumb-tack
link
navicon
aside
angle-double-up
angle-double-down
angle-up
angle-down
star-half
status
フリーOCRソフトとGoogle翻訳で図説の文章を読めるようにしてみた
先日南米のカストニアについて調べていて, 良さそうな書籍があったので購入した.
Uranie, Castnie e Saturnie di Roberto Vinciguerra
文章が全てイタリア語だったので, スキャンしたpdfから文章を抽出して, google翻訳に投げて読むことにした.
pdfから文章を抽出してテキストに落とすソフトはOCRソフトと呼ばれる.
Adobe社などが有料版を販売しているが, 検索するとフリーウェアもちらほら出てくる.
その中でも, 言語をこちらから指定することのできるRenee PDF Aide OCRを試してみた.
公式サイト
1. 書籍をスキャンしてpdf化する
プリンタのスキャン機能で, dpiは高めに720で
2. Renee PDF Aide OCRで処理
言語選択でイタリア語を選択. 出力はテキストファイルで.
OCRを使用にはチェック入れてください.
変換は数分で終わります.
3. 文章を整形
生成されるテキストはこんな感じ.
一語ごとに改行区切りされているのを, スペース区切りに変えたい.
OCRソフトの方で出力設定を変える方法が分からなかったので, スクリプトを書いた.
3.1 文字コードをutf-8に
スクリプトで文章を扱う上で, 文字コードはutf-8が扱いやすい.
適当なエディタでテキストを開き, 文字化けしていないことを確認した後, 文字コードをutf-8に指定して念のため別名で保存.
3.2 改行区切りをスペース区切りに
適当に書いたpythonコードを実行して, 改行区切りをスペース区切りに
3.3 実際の文章と照らし合わせて細かい修正
余計な部分を削って, 段落ごとにまとめる.
認識精度確認
4. google翻訳に投げる
読める…読めるぞ…
これなら, 数十ページくらいの英語以外の文章を手作業で変換するのもそれほど苦じゃない印象.
フリーソフトでここまで出来ますよという報告でした.
以上.