Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdfファイルの検索について



寺西です。

平屋 宏記 wrote:
> 
> > > > むむ。TEL が 3回とはいえ、出力されているのですね。
> > > 3回でなく大量に出ておりましたので、省略してしまいました。
> >
> > そうでしたか。どれくらいの数でしょう。
> TELが21個
> HPが1個
> FAXTELが3個
> TEL
> E-mail
> TELが5個
> でて本文になっております。

なるほど。

> 申し訳ありませんでした、pdftotextコマンドで確認したところ
> pdftotext -q -enc EUC-JP -raw 5-7.pdf TELが発生しました。
> pdftotext -q -enc EUC-JP 5-7.pdf 問題ありませんでした。

-raw 付きの場合に TEL が発生というのは、上記の TEL 21 個、HP 1個
.... というのが再現できているということですね?

> 確認ですが、pdf.plのコマンドは
> pdftotext -q -enc EUC-JP -raw 5-7.pdf
> で宜しいのでしょうか。

はい。内部では -q -enc EUC-JP -raw を付けて pdftotext を呼び出して
います。

このファイルに関して言えば、-raw を外せば問題ないということに
なるのですが、他の PDF ファイルに悪影響がでるかもしれないので、
お勧めできません。
-raw が付いている理由は以下にしめしてあります。
http://www.namazu.org/ml/namazu-devel-ja/msg02091.html

結論としては、-raw なしでは表示しないが、元々 5-7.pdf ファイルには
TEL が大量に入っているので、これが抽出されただけということだった
ようです。
# 入っているものが抽出されて表示されたのだから、これは正常動作。

不必要な TEL を大量に表示したくないということであれば、元データ
を修正するのがよろしいかと思います。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E