Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
pdftotext 文字が空白で出力されてしまう
- From: Takashi NAKANO <nakano@xxxxxxxxx>
- Date: Thu, 14 Jun 2001 18:05:31 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 01771
中野と申します。
NamazuでPDFファイルを検索できるように、pdftotext(xpdf 0.9.2)をNEC UX4800上で利用しております。
いくつかのPDFファイルが検索にかからない現象を調査していて、pdftotextがPDFファイルをテキストに変換するときに
空白文字しか出力していない現象を確認しました。
もう少し調査を進めてみたのですが、どうやらPDFファイル中の特定のフォント(Arial)が使われている文字について
空白文字(0x20)で出力されてしまっているようです。
現在までに確認したフォントと動作確認結果は以下のとおりです。
Arial NG
MS Pゴシック OK
MS 明朝 OK
GothicBBB-Medium OK
Ryumin-Light OK
ちなみにLinux上で同じバージョンで同じPDFファイルで確認したのですが、正常動作していました。
どなたか原因と対策をご存知の方、いらっしゃいませんでしょうか?
中野 貴志