Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: pdfファイルの検索について
confirm 20030513141950869771743321 Hiroki Hiraya
平屋です。
On Wed, 27 Aug 2003 16:41:38 +0900
Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx> wrote:
> > > を実行するといろいろとデバッグ情報が出ます。
> > > // Field: summary: の結果はどうなっていますか?
> > // Field: summary: TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL
>
> うーむ。やはり TEL が大量に出てますね。
>
> > // -- content --
> > // TEL
> > // TEL
> > // TEL
> > の後にpdftotextの結果が出力されておりました。
>
> むむ。TEL が 3回とはいえ、出力されているのですね。
3回でなく大量に出ておりましたので、省略してしまいました。
pdftotextの結果の中にもTELが2回づつ出力されておりました。
>
> gfilter::line_adjust_filter($cont);
> gfilter::white_space_adjust_filter($cont);
>
> の2つぐらいしか通っていないはずなのだが...。
>
> // -- weighted_str: -- と
> // -- headings -- の後はどうなっているでしょうか?
// -- weighted_str: --
// 165-7.pdf/16
// -- headings --
// tmpnam: /export/home/src/namazu/NMZ.pdf3.tmp
> > // -- wakatized bare content -- や
> > // -- わかち書きされた内容 -- のところはどうなっていますか?
の部分も-- content --と同様の結果でした。
以上、宜しくお願いいたします。
<2003年4月1日より社名が変わりました>
_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
パナソニック ソリューションテクノロジー株式会社
東日本SIグループソリューション第1チーム
平屋 宏記(Hiroki Hiraya)
hiraya@xxxxxxxxxxxxxxx
_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/