PDFのテキスト構造(縦書きPDFとオフィス書き出し)
『AdobeAcrobatProDC(月々プラン)にて縦書文(歌集)をwordへ書き出し』に反応
https://forums.adobe.com/message/8997371
回答でクローズしているので
こちらにフォローとして記載しておく。
ここでは、スキャンPDFの文字認識では無く
すでにテキストになっているPDFについて書きます。
まず
PDFとテキストについて過去に書いた3点の記事を読んで欲しい。
(この3点が理解できなければ、この記事は読む必要が無い)
文字を検索出来ないPDF
https://force4u.cocolog-nifty.com/skywalker/2010/08/pdflib-fontrepo.html
なぜ?印刷時に文字化けして出力されるのか
https://force4u.cocolog-nifty.com/skywalker/2015/02/post-fd60.html
スタンプの回転を決める(文書の回転と天地)
https://force4u.cocolog-nifty.com/skywalker/2014/01/post-03f7.html
-------
前提が『そのPDFの構造は正しいか』なんです。
(WORD書き出し後に意図する表示が可能な構造か?)
文字コードと紐づかないPDFの場合は、そもそも文字としては、『読める形で認識しない』
たしかにAcrobatのオフィスアプリへの変換は問題が無いとは言わないけど。
正しく文字が認識出来るPDFでなければ、いくら優れたアプリケーションだとしても
読める文字には出来ない。
その上で、
テキスト(文字、コード、キャラクタ)の構造が正しい形になっているか?で
読める形で書出し等が出来るか?なんです。
-------
テキスト書き出しには2種類あります
アクセシブルとプレーンです
アクセシブルテキストは
『ほぼ』コンテンツパネルの順にテキストが書出されます。
また
プレーンテキストは
『ほぼ』順序パネルの順にテキストが書出されます。
WORDに書出した時にPDFの天地と
文章の向きが合っていないと、上手くいかない事も多い
(見た目の文字は縦書きだけど、文章の天地向きが左右にあったりする場合ね)
-------
ここまでで
正しいテキスト構造のPDFであれば
書出し結果(テキストに限るけど)が『まぁ許せる範囲で』正しく書出せる…わけです。
-------
逆に、どんな『縦書きPDF』なら
正しくWORD変換できるのでしょう。
1:文字を読める形で認識出来るテキスト
2:全ての文字が同じフォント(書出し時に文字コードと紐づくフォント)
3:全て全角文字で個別の詰め等が無い
この3点を抑えれば…(まぁそんな文書まぁ無いけどね…笑)縦書きPDFでも
正しくWORD変換出来ます。
Aiを使ってヒラギノで縦書き文章を作ります。
出来上がったコンテンツが1つなのに注目してください
コンテンツが1つなので、文字とオブジェクト等でズレたり、前後関係が出来たりしません。
まぁここが、通常の文章では不可能なので、縦書き書出し時に不具合が出ますね。
これをWORDに書出すと
こんな感じで文字が回転したりします。
これはフォントの指定の問題なので
フォントを再指定すれば
縦書きWORD書き出し完了です。
(フォントを変更した事で文字送りが変わってしまうのでナニですけど…)
もちろん、上記のようなシンプルな
こんな文書、日常的にありえない文章なので
『WORDへの縦書き文章書き出しは出来ない』といっても良いでしょう。
まぁ
複雑な文章構造を書出せない。と言った方が正解に近いかな…
WORDへの縦書は出来る。(ただし有り得ないような条件付き)って事した。
| 固定リンク
「Acrobat Character」カテゴリの記事
- 字形と文字コードが紐づいていないPDF(決定版解説)(2021.02.28)
- PDFのテキスト構造(縦書きPDFとオフィス書き出し)(2016.09.12)
- [PDF]見た目通りの字形ではない文字(透明透かしでラスタライズ後にClearScanでOCR)(2015.02.15)
- PDFlib FontReporter【文字を検索出来ないPDF】(2010.08.04)