« 【再考中】なぜ?印刷時に文字化けして出力されるのか | トップページ | 【再考中】なぜ?印刷時に文字化けして出力されるのかーその2 CID GID »

[PDF]見た目通りの字形ではない文字(透明透かしでラスタライズ後にClearScanでOCR)

こちらの記事『LINK
『PDFのテキストを取り出したいのですが文字化けします』のディスカッションの記事に反応

まずは
『PDF変換をOS XのQuartz経由で行っているのが原因』では無い。
(まぁ半分正解だけど…汗)

PDFを作成=アプリケーションがPS化するタイミングで
『字形』と『文字コード』が紐づかないのは
主に『フォント』と、PDFを作成した『アプリケーション』の組み込みの問題で
(問題と言うより仕様ですが)
Quartzが悪さしているわけでは無い

Quartzは総称としてなら意味は合うが
基本的にQuartzはグラフィックを担当しているわけなので
文字部分は『Core Text』 PDFにするのはImageIO だったり CUPSだったりするわけです

まずは
過去の記事を
AdobeReader8 とencode - DTP駆け込み寺 掲示板
http://www.dtptemple.org/imgbbs/index.php?mode=thread&id=8057&page=1

PDFlib FontReporter【文字を検索出来ないPDF】
https://force4u.cocolog-nifty.com/skywalker/2010/08/pdflib-fontrepo.html

【再考中】なぜ?印刷時に文字化けして出力されるのか
https://force4u.cocolog-nifty.com/skywalker/2015/02/post-fd60.html

【再考中】なぜ?印刷時に文字化けして出力されるのかーその2 CID GID
https://force4u.cocolog-nifty.com/skywalker/2015/02/cid-gid-a96b.html


----ここまで前置き
『PDFのテキストを取り出したいのですが文字化けします』なので
文字を見た目の字形通りに抜き出せれば良いわけです。
出来上がったPDFの対象の文字は
字形と文字が紐づいていませんから
そのままでは、どうやっても無理です。

文字数が多いなら
OCRするのが良いでしょう。

まずは、見た目通りの字形ではない文字になっているPDFを作ります。
もうおなじみ
JeditでOsaka等幅をCUPS-PDFでPDF化すれば一発で出来ます。笑


Website_image00270615_223534

Website_image00270615_223711

これに
『透明のPDF』を透かしとして入れます。

Website_image00270615_223813

透かしを
透明の分割でラスタライズして画像化します

Website_image00270615_223910

画像化されたら
OCR機能でテキスト化します


Website_image00270615_224000


まぁ、OCR誤りはあるものの
文字数にもよりますが
一から打つよりいいかも?程度でしょうか

Website_image00270615_224254


時間と人員に余力があるなら
この段階で文字校正に出せれば良いのかも?しれませんね。

|

« 【再考中】なぜ?印刷時に文字化けして出力されるのか | トップページ | 【再考中】なぜ?印刷時に文字化けして出力されるのかーその2 CID GID »

Acrobat Character」カテゴリの記事