Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: pdfファイルの検索について
寺西です。
平屋 宏記 wrote:
>
> > > // -- content --
> > > // TEL
> > > // TEL
> > > // TEL
> > > の後にpdftotextの結果が出力されておりました。
> >
> > むむ。TEL が 3回とはいえ、出力されているのですね。
> 3回でなく大量に出ておりましたので、省略してしまいました。
そうでしたか。どれくらいの数でしょう。
> pdftotextの結果の中にもTELが2回づつ出力されておりました。
まってください。TEL が 2回づつというのはどういう感じで出ている
のですか? 合計何個?
pdftotext では TEL は大量には出ていないのですよね?
-- content -- 以下の出力とは、pdftotext の出力結果を多少加工した
ものです。ここで TEL が大量に入っているということは pdftotext の
結果に TEL が大量に入っていると考えるのが、ごく自然です。
mknmz から実行している pdftotext とシェルから実行している pdftotext
が別物という可能性はありませんか?
> > // -- weighted_str: -- と
> > // -- headings -- の後はどうなっているでしょうか?
>
> // -- weighted_str: --
> // 165-7.pdf/16
> // -- headings --
> // tmpnam: /export/home/src/namazu/NMZ.pdf3.tmp
なるほど headings は空ですね。pdf.pl では headings は触っていないので
これが空じゃないと、どこか別のところに原因があるのかと思いましたが、
そうではなく pdftotext の問題ぽいですね。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E