Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdfファイルの検索について



寺西です。

平屋 宏記 wrote:
> 
> > $ pdftotext -q -enc EUC-JP -raw 5-7.pdf test.txt
> >
> > この結果でも問題がなければ、謎ですね。
> この結果でも問題はありませんでした。

そうですか。

> > Windows 版の Acrobat で読み込んで、上書き保存したらどうなるで
> > しょうか?
> Readerしかなかったため、試すことができませんでした。

仕方ないですね。

> > $ mknmz --debug 5-7.pdf
> >
> > を実行するといろいろとデバッグ情報が出ます。
> > // Field: summary: の結果はどうなっていますか?
> // Field: summary: TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL

うーむ。やはり TEL が大量に出てますね。

> // -- content --
> // TEL
> // TEL
> // TEL
> の後にpdftotextの結果が出力されておりました。

むむ。TEL が 3回とはいえ、出力されているのですね。

    gfilter::line_adjust_filter($cont);
    gfilter::white_space_adjust_filter($cont);

の2つぐらいしか通っていないはずなのだが...。

// -- weighted_str: -- と
// -- headings -- の後はどうなっているでしょうか?

headings に TEL が大量にあったりすると make_summary() で
summary に TEL が大量に入ると思います。

> > // -- wakatized bare content -- や
> // tel
> // tel
> // tel
> の後にpdftotextの結果が出力されておりました。

これはそうですが、

> > // -- わかち書きされた内容 -- のところはどうなっていますか?
> // tel
> // tel
> // tel
> の後にpdftotextの結果が出力されておりました。

ここはわかち書きされているので、空白が余計に入っていると思います。
(だからどうということはないのだが...。)
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E