Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: pdfファイルの検索について
confirm 20030513141950869771743321 Hiroki Hiraya
平屋です。
On Wed, 27 Aug 2003 17:20:53 +0900
Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx> wrote:
> 寺西です。
>
> 平屋 宏記 wrote:
> >
> > > > // -- content --
> > > > // TEL
> > > > // TEL
> > > > // TEL
> > > > の後にpdftotextの結果が出力されておりました。
> > >
> > > むむ。TEL が 3回とはいえ、出力されているのですね。
> > 3回でなく大量に出ておりましたので、省略してしまいました。
>
> そうでしたか。どれくらいの数でしょう。
TELが21個
HPが1個
FAXTELが3個
TEL
E-mail
TELが5個
でて本文になっております。
>
> > pdftotextの結果の中にもTELが2回づつ出力されておりました。
>
> まってください。TEL が 2回づつというのはどういう感じで出ている
> のですか? 合計何個?
> pdftotext では TEL は大量には出ていないのですよね?
>
> -- content -- 以下の出力とは、pdftotext の出力結果を多少加工した
> ものです。ここで TEL が大量に入っているということは pdftotext の
> 結果に TEL が大量に入っていると考えるのが、ごく自然です。
>
> mknmz から実行している pdftotext とシェルから実行している pdftotext
> が別物という可能性はありませんか?
>
申し訳ありませんでした、pdftotextコマンドで確認したところ
pdftotext -q -enc EUC-JP -raw 5-7.pdf TELが発生しました。
pdftotext -q -enc EUC-JP 5-7.pdf 問題ありませんでした。
確認ですが、pdf.plのコマンドは
pdftotext -q -enc EUC-JP -raw 5-7.pdf
で宜しいのでしょうか。
以上、宜しくお願いいたします。
<2003年4月1日より社名が変わりました>
_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
パナソニック ソリューションテクノロジー株式会社
(旧社名:松下システムソリューションズ株式会社)
東日本SIグループソリューション第1チーム
平屋 宏記(Hiroki Hiraya)
hiraya@xxxxxxxxxxxxxxx
TEL 03(5476)3032
FAX 03(5476)3018
_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/