Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: pdfファイルの検索について
寺西です。
平屋 宏記 wrote:
>
> > > 6.のファイルを
> > > pdftotext -q -euc EUC-JP でtxtに変換すると
> > > 日本語で読むことはできました。
> >
> > 変換したテキストファイルは何でどのようにして確認しましたか?
> > 変換したテキストファイルを vi で開くとどうなりますか?
> viを使用して普通に開き、読むことはできました。
>
> > 制御コードとTEL が大量に入っているということはありませんか?
> 見た感じでは制御コードとTELは大量に入っておりませんでした。
では、Namazu の内部で行っている処理とまったく同じオプションで
実行した結果はどうなるでしょうか? (-raw がついている)
$ pdftotext -q -enc EUC-JP -raw 5-7.pdf test.txt
この結果でも問題がなければ、謎ですね。
> > pdftotext の結果と大きく異なるようでしたら、再現できる pdf ファイルを
> > ご用意していただければ、調査することは可能です。
> pdfファイルをお客様のデータですので送ることができません。
ということでしたら、手の出しようもないですね。
このファイル以外でも、同様の問題は発生するのでしょうか? それとも
このファイルだけが起こるのでしょうか?
Windows 版の Acrobat で読み込んで、上書き保存したらどうなるで
しょうか?
> pdfinfoの結果をお送りいたします。
残念なことにあまり役に立つ情報ではありません。
> Producer: Acrobat Distiller 4.05 for Macintosh
Macintosh というところが気にはなりますが、pdftotext で変換できて
いるなら問題は起こらないはずです。
> 他に必要な情報がありましたら、公開できる範囲で
> 公開することは可能ですので、ご対応のほど宜しくお願いいたします。
$ mknmz --debug 5-7.pdf
を実行するといろいろとデバッグ情報が出ます。
// Field: summary: の結果はどうなっていますか?
// -- content -- の行以下は pdftotext の結果と同じものがでている
でしょうか?
// -- wakatized bare content -- や
// -- わかち書きされた内容 -- のところはどうなっていますか?
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E