印刷用表示へ切り替え 通常表示へ切り替え 更新履歴を表示 更新履歴を隠す
misc PDF を OCR で処理すると傾き補正機能が余計なことを

電子ブックから作成した PDF ファイルに OCR をかけると,傾き補正の機能によってページが傾くことがある。余計なことをしてくれるものだ。

■ ■ ■

動作環境

動作環境は Windows 7 Professional, Adobe Acrobat X Pro 10.0.0 である。

現象

4月から始めたフランス語学習では,テキストを電子ブックで購入して行っている。電子ブックは場所をとらないのでありがたい反面,印刷するのが非常に面倒くさい。そこで,電子ブックを無理やり PDF 化している。

電子ブックは画像形式のため内容を検索することができない。そこで,Adobe Acrobat の OCR 機能を使ってテキスト認識させ,テキスト情報を PDF ファイルに埋め込むことにした。ところが,便利なはずの傾き補正の機能が逆効果になることが分かった。


上の図は,NHK 語学講座「まいにちフランス語」2015年5月号の巻頭カラーページの一部である。左が OCR をかける前,右が OCR 後である。ページの上部にあるリボンに描かれた「19世紀のモードなパリ」の文字が傾いているため,これの傾き補正をすると,ページ全体が傾いてしまうのだ。これはひどい。

ClearScan
ClearScan


このような現象が起きた設定は,「テキスト認識」ウィンドウで「OCRの言語」に「日本語」,「PDFの出力形式」に「ClearScan」を指定したときである。

OCR は画像のスムージングも自動的にしてくれてしまうため,解像度が低下してしまう。余計なことをしてくれまくりである。

これには解決方法があるそうで (自炊PDFの解像度最適化とOCRが両立しない(→解決) ( ソフトウェア ) - アルファのブログ - Yahoo!ブログ),Adobe Acrobat のテキスト認識のオプションの「PDF の出力形式」を「検索可能な画像 (非圧縮)」にしておけばよいとのこと。次からこれで試してみよう。

OCR オプションには言語を指定しなければならず,フランス語と日本語が混じったテキストの場合,どちらかを捨てなければならない。仕方なく日本語で認識させてフランス語は捨てている。大きなメリットであろうはずの,テキスト情報をまるっきりないというのは電子ブックとしてどうなんだろうね?

Posted by n at 2015-06-26 21:15 | Edit | Comments (0) | Trackback(0)
Trackbacks

  • 「手違いで複数トラックバックを送ってしまった!」という場合でも気にしないでください (重複分はこちらで勝手に削除させていただきます)
  • タイムアウトエラーは,こちらのサーバの処理能力不足が原因です (詳細は トラックバック送信時のエラー をご覧ください)
  • トラックバックする記事には,この記事へのリンクを含めてください(詳細は 迷惑トラックバック対策 をご覧ください)
Comments
Post a comment
  • 電子メールアドレスは必須ですが,表示されません (気になる場合は「メールアドレスのような」文字列でもOKです)
  • URL を入力した場合はリンクが張られます
  • コメント欄内ではタグは使えません
  • コメント欄内に URL を記入した場合は自動的にリンクに変換されます
  • コメント欄内の改行はそのまま改行となります
  • 「Confirmation Code」に表示されている数字を入力してください (迷惑コメント対策です)


(必須, 表示されます)


(必須, 表示されません)


(任意, リンクされます)


Confirmation Code (必須)


Remember info (R)?