[PDF]見た目通りの字形ではない文字(透明透かしでラスタライズ後にClearScanでOCR)
こちらの記事『LINK』
『PDFのテキストを取り出したいのですが文字化けします』のディスカッションの記事に反応
まずは
『PDF変換をOS XのQuartz経由で行っているのが原因』では無い。
(まぁ半分正解だけど…汗)
PDFを作成=アプリケーションがPS化するタイミングで
『字形』と『文字コード』が紐づかないのは
主に『フォント』と、PDFを作成した『アプリケーション』の組み込みの問題で
(問題と言うより仕様ですが)
Quartzが悪さしているわけでは無い
Quartzは総称としてなら意味は合うが
基本的にQuartzはグラフィックを担当しているわけなので
文字部分は『Core Text』 PDFにするのはImageIO だったり CUPSだったりするわけです
まずは
過去の記事を
AdobeReader8 とencode - DTP駆け込み寺 掲示板
http://www.dtptemple.org/imgbbs/index.php?mode=thread&id=8057&page=1
PDFlib FontReporter【文字を検索出来ないPDF】
https://force4u.cocolog-nifty.com/skywalker/2010/08/pdflib-fontrepo.html
【再考中】なぜ?印刷時に文字化けして出力されるのか
https://force4u.cocolog-nifty.com/skywalker/2015/02/post-fd60.html
【再考中】なぜ?印刷時に文字化けして出力されるのかーその2 CID GID
https://force4u.cocolog-nifty.com/skywalker/2015/02/cid-gid-a96b.html
----ここまで前置き
『PDFのテキストを取り出したいのですが文字化けします』なので
文字を見た目の字形通りに抜き出せれば良いわけです。
出来上がったPDFの対象の文字は
字形と文字が紐づいていませんから
そのままでは、どうやっても無理です。
文字数が多いなら
OCRするのが良いでしょう。
まずは、見た目通りの字形ではない文字になっているPDFを作ります。
もうおなじみ
JeditでOsaka等幅をCUPS-PDFでPDF化すれば一発で出来ます。笑
これに
『透明のPDF』を透かしとして入れます。
透かしを
透明の分割でラスタライズして画像化します
画像化されたら
OCR機能でテキスト化します
まぁ、OCR誤りはあるものの
文字数にもよりますが
一から打つよりいいかも?程度でしょうか
時間と人員に余力があるなら
この段階で文字校正に出せれば良いのかも?しれませんね。
| 固定リンク
「Acrobat Character」カテゴリの記事
- 字形と文字コードが紐づいていないPDF(決定版解説)(2021.02.28)
- PDFのテキスト構造(縦書きPDFとオフィス書き出し)(2016.09.12)
- [PDF]見た目通りの字形ではない文字(透明透かしでラスタライズ後にClearScanでOCR)(2015.02.15)
- PDFlib FontReporter【文字を検索出来ないPDF】(2010.08.04)