namazu-ml(avocado)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: pdf等の検索
國頭です。
▲時刻 Sat, 10 Oct 1998 12:57:04 +0900 に
▲Kenji Suzukiさんの出した
▲Message-ID <v04010107b244868e6174@xxxxxxxxxxxxxxxx>の
▲[namazu:01316] pdf等の検索 という話題では...
Kenji> 仮に pdf をインデックスする場合,
Kenji> hoge.pdf というファイルがあって,それからテキストを抜き出した
Kenji> ファイルを hoge.pdf.txt とかでつくりますと,検索したときに
Kenji> 返す URL を元の URL に戻さないといけません.
Kenji> 一番楽なのは,mknmz 自体が pdfファイルからテキストを抜き出して
Kenji> くれるというものですが,どうでしょう.
一太郎文書やword などいろいろありますから、mknmz がpdf からテキストを
抜き出すなら、.mime.types みたいのを作って filter を定義するのはどうで
しょうか?
application/pdf にあたる拡張子の場合には
/usr/local/bin/pdf2txt -option を呼ぶ
というように定義しておくのです。helper program ですね。
mknmz はmime.types を見て filterを通す必要があればfilter を通す、
必要なフィルタがインストールされていなければ(open2() で失敗したら)無視
する。
そうすれば、各自のサイトで独自のフォーマットを使っている場合にも、
filter さえ書けば対応できると思います。
こんなのはどうでしょうか?
====================================================================
|| 國頭 吾郎 (Goro Kunito) Tel 03-3812-2111 or 03-3814-4251(ext.6761) ||
|| 東京大学工学系研究科電子情報工学専攻 羽鳥・相澤研究室 博士2年 ||
|| E-mail : kunito@xxxxxxxxxxxxxxxxxxx ||
====================================================================