nlog(n): PDF を OCR で処理すると傾き補正機能が余計なことを

PDF を OCR で処理すると傾き補正機能が余計なことを

電子ブックから作成した PDF ファイルに OCR をかけると，傾き補正の機能によってページが傾くことがある。余計なことをしてくれるものだ。

■ ■ ■

動作環境

動作環境は Windows 7 Professional, Adobe Acrobat X Pro 10.0.0 である。

4月から始めたフランス語学習では，テキストを電子ブックで購入して行っている。電子ブックは場所をとらないのでありがたい反面，印刷するのが非常に面倒くさい。そこで，電子ブックを無理やり PDF 化している。

電子ブックは画像形式のため内容を検索することができない。そこで，Adobe Acrobat の OCR 機能を使ってテキスト認識させ，テキスト情報を PDF ファイルに埋め込むことにした。ところが，便利なはずの傾き補正の機能が逆効果になることが分かった。

上の図は，NHK 語学講座「まいにちフランス語」2015年5月号の巻頭カラーページの一部である。左が OCR をかける前，右が OCR 後である。ページの上部にあるリボンに描かれた「19世紀のモードなパリ」の文字が傾いているため，これの傾き補正をすると，ページ全体が傾いてしまうのだ。これはひどい。

ClearScan

このような現象が起きた設定は，「テキスト認識」ウィンドウで「OCRの言語」に「日本語」，「PDFの出力形式」に「ClearScan」を指定したときである。

OCR は画像のスムージングも自動的にしてくれてしまうため，解像度が低下してしまう。余計なことをしてくれまくりである。

これには解決方法があるそうで (自炊PDFの解像度最適化とOCRが両立しない(→解決) ( ソフトウェア ) - アルファのブログ - Yahoo!ブログ)，Adobe Acrobat のテキスト認識のオプションの「PDF の出力形式」を「検索可能な画像 (非圧縮)」にしておけばよいとのこと。次からこれで試してみよう。

OCR オプションには言語を指定しなければならず，フランス語と日本語が混じったテキストの場合，どちらかを捨てなければならない。仕方なく日本語で認識させてフランス語は捨てている。大きなメリットであろうはずの，テキスト情報をまるっきりないというのは電子ブックとしてどうなんだろうね?

Posted by n at 2015-06-26 21:15 | Edit | Comments (0) | Trackback(0)

Trackbacks

Comments