Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdfファイルの検索について



寺西です。

平屋 宏記 wrote:
> 
> > > 6.のファイルを
> > > pdftotext -q -euc EUC-JP でtxtに変換すると
> > > 日本語で読むことはできました。
> >
> > 変換したテキストファイルは何でどのようにして確認しましたか?
> > 変換したテキストファイルを vi で開くとどうなりますか?
> viを使用して普通に開き、読むことはできました。
> 
> > 制御コードとTEL が大量に入っているということはありませんか?
> 見た感じでは制御コードとTELは大量に入っておりませんでした。

では、Namazu の内部で行っている処理とまったく同じオプションで
実行した結果はどうなるでしょうか? (-raw がついている)

$ pdftotext -q -enc EUC-JP -raw 5-7.pdf test.txt

この結果でも問題がなければ、謎ですね。

> > pdftotext の結果と大きく異なるようでしたら、再現できる pdf ファイルを
> > ご用意していただければ、調査することは可能です。
> pdfファイルをお客様のデータですので送ることができません。

ということでしたら、手の出しようもないですね。

このファイル以外でも、同様の問題は発生するのでしょうか? それとも
このファイルだけが起こるのでしょうか?

Windows 版の Acrobat で読み込んで、上書き保存したらどうなるで
しょうか?

> pdfinfoの結果をお送りいたします。

残念なことにあまり役に立つ情報ではありません。

> Producer:     Acrobat Distiller 4.05 for Macintosh

Macintosh というところが気にはなりますが、pdftotext で変換できて
いるなら問題は起こらないはずです。

> 他に必要な情報がありましたら、公開できる範囲で
> 公開することは可能ですので、ご対応のほど宜しくお願いいたします。

$ mknmz --debug 5-7.pdf 

を実行するといろいろとデバッグ情報が出ます。
// Field: summary: の結果はどうなっていますか?
// -- content -- の行以下は pdftotext の結果と同じものがでている
でしょうか?
// -- wakatized bare content -- や
// -- わかち書きされた内容 -- のところはどうなっていますか?
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E