Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdfファイルの検索について



confirm 20030513141950869771743321 Hiroki Hiraya

平屋です。

On Wed, 27 Aug 2003 16:41:38 +0900
Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx> wrote:


> > > を実行するといろいろとデバッグ情報が出ます。
> > > // Field: summary: の結果はどうなっていますか?
> > // Field: summary: TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL
> 
> うーむ。やはり TEL が大量に出てますね。
> 
> > // -- content --
> > // TEL
> > // TEL
> > // TEL
> > の後にpdftotextの結果が出力されておりました。
> 
> むむ。TEL が 3回とはいえ、出力されているのですね。
3回でなく大量に出ておりましたので、省略してしまいました。
pdftotextの結果の中にもTELが2回づつ出力されておりました。
> 
>     gfilter::line_adjust_filter($cont);
>     gfilter::white_space_adjust_filter($cont);
> 
> の2つぐらいしか通っていないはずなのだが...。
> 
> // -- weighted_str: -- と
> // -- headings -- の後はどうなっているでしょうか?

// -- weighted_str: --
// 165-7.pdf/16
// -- headings --
// tmpnam: /export/home/src/namazu/NMZ.pdf3.tmp

> > // -- wakatized bare content -- や
> > // -- わかち書きされた内容 -- のところはどうなっていますか?
の部分も-- content --と同様の結果でした。

以上、宜しくお願いいたします。

    <2003年4月1日より社名が変わりました>
_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
パナソニック ソリューションテクノロジー株式会社
            東日本SIグループソリューション第1チーム
                             平屋 宏記(Hiroki Hiraya)
                             hiraya@xxxxxxxxxxxxxxx
_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/