namazu-ml(avocado)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
pdf等の検索
- From: Kenji Suzuki <kenji@xxxxxxxxxxxxxxxx>
- Date: Sat, 10 Oct 1998 12:57:04 +0900
- X-ml-name: namazu
- X-mail-count: 01316
ftp://paprika.noc.intec.co.jp/pub/person/ishida/freeware/pdf2txt/
が公開されていますが,html 以外のファイルの扱いについて,
みなさんどうされていますでしょうか?
仮に pdf をインデックスする場合,
hoge.pdf というファイルがあって,それからテキストを抜き出した
ファイルを hoge.pdf.txt とかでつくりますと,検索したときに
返す URL を元の URL に戻さないといけません.
一番楽なのは,mknmz 自体が pdfファイルからテキストを抜き出して
くれるというものですが,どうでしょう.
// Kenji Suzuki <kenji@xxxxxxxxxxxxx>