DocCat 用のフィルタ doccat.pl を作成しました。
DocCat ver.3 で対応している -p オプション (ドキュメントの
プロパティ (subject, author などの情報取得) にも対応。
# まだ buggy でイマイチ > doccat -p
現在の Namazu (mknmz) は、
あるメディアタイプを複数のフィルタがサポートしている
場合、「フィルタのファイル名が辞書順で先のほう」の
フィルタが採用される
となります。実際は script/mknmz.pl の load_modules() 使用している
glob の動作に依りますが。あとは load_filters() のフィルタの
評価の仕方に依存。
例えば wv (msword.pl) と DocCat (doccat.pl) の両方が有効な
状態で MS Word ファイルを処理させると doccat.pl が使用されます。
現在 CVS にある filter/* では、msword.pl, excel.pl などは
DocCat のほうが優先順位が低くなっているので、これを入れると
動作が変わってしまう。
さて、どうしようかな。
手元では、msword.pl などから DocCat 対応部分を取り除いたりの
作業もやりました。
--
SATOH Fumiyasu - fumiya @net-thrust.com, @samba.gr.jp, @namazu.org or ...
THRUST Co., Ltd. @ Fujisawa, Kanagawa, Japan - http://www.net-thrust.com
Samba-JP, aka `Samba Users Group Japan' - http://www.samba.gr.jp
Apache-JP(?), aka `Japan Apache Users Group' - http://www.apache.or.jp
Namazu, a full-text search engine - http://www.namazu.orgAttachment:
doccat.pl
Description: Binary data