Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdfファイルの検索について



confirm 20030513141950869771743321 Hiroki Hiraya

平屋です。

On Wed, 27 Aug 2003 17:20:53 +0900
Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx> wrote:

> 寺西です。
> 
> 平屋 宏記 wrote:
> > 
> > > > // -- content --
> > > > // TEL
> > > > // TEL
> > > > // TEL
> > > > の後にpdftotextの結果が出力されておりました。
> > >
> > > むむ。TEL が 3回とはいえ、出力されているのですね。
> > 3回でなく大量に出ておりましたので、省略してしまいました。
> 
> そうでしたか。どれくらいの数でしょう。
TELが21個
HPが1個
FAXTELが3個
TEL
E-mail
TELが5個
でて本文になっております。

> 
> > pdftotextの結果の中にもTELが2回づつ出力されておりました。
> 
> まってください。TEL が 2回づつというのはどういう感じで出ている
> のですか? 合計何個?
> pdftotext では TEL は大量には出ていないのですよね?
> 
> -- content -- 以下の出力とは、pdftotext の出力結果を多少加工した
> ものです。ここで TEL が大量に入っているということは pdftotext の
> 結果に TEL が大量に入っていると考えるのが、ごく自然です。
> 
> mknmz から実行している pdftotext とシェルから実行している pdftotext
> が別物という可能性はありませんか?
> 
申し訳ありませんでした、pdftotextコマンドで確認したところ
pdftotext -q -enc EUC-JP -raw 5-7.pdf TELが発生しました。
pdftotext -q -enc EUC-JP 5-7.pdf 問題ありませんでした。

確認ですが、pdf.plのコマンドは
pdftotext -q -enc EUC-JP -raw 5-7.pdf
で宜しいのでしょうか。

以上、宜しくお願いいたします。

    <2003年4月1日より社名が変わりました>
_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
パナソニック ソリューションテクノロジー株式会社
(旧社名:松下システムソリューションズ株式会社)
            東日本SIグループソリューション第1チーム
                             平屋 宏記(Hiroki Hiraya)
                             hiraya@xxxxxxxxxxxxxxx
                             TEL  03(5476)3032  
                             FAX 03(5476)3018
_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/