Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: pdfファイルの検索について
寺西です。
平屋 宏記 wrote:
>
> > $ pdftotext -q -enc EUC-JP -raw 5-7.pdf test.txt
> >
> > この結果でも問題がなければ、謎ですね。
> この結果でも問題はありませんでした。
そうですか。
> > Windows 版の Acrobat で読み込んで、上書き保存したらどうなるで
> > しょうか?
> Readerしかなかったため、試すことができませんでした。
仕方ないですね。
> > $ mknmz --debug 5-7.pdf
> >
> > を実行するといろいろとデバッグ情報が出ます。
> > // Field: summary: の結果はどうなっていますか?
> // Field: summary: TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL
うーむ。やはり TEL が大量に出てますね。
> // -- content --
> // TEL
> // TEL
> // TEL
> の後にpdftotextの結果が出力されておりました。
むむ。TEL が 3回とはいえ、出力されているのですね。
gfilter::line_adjust_filter($cont);
gfilter::white_space_adjust_filter($cont);
の2つぐらいしか通っていないはずなのだが...。
// -- weighted_str: -- と
// -- headings -- の後はどうなっているでしょうか?
headings に TEL が大量にあったりすると make_summary() で
summary に TEL が大量に入ると思います。
> > // -- wakatized bare content -- や
> // tel
> // tel
> // tel
> の後にpdftotextの結果が出力されておりました。
これはそうですが、
> > // -- わかち書きされた内容 -- のところはどうなっていますか?
> // tel
> // tel
> // tel
> の後にpdftotextの結果が出力されておりました。
ここはわかち書きされているので、空白が余計に入っていると思います。
(だからどうということはないのだが...。)
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E