Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

アーカイブファイルの検索 (Re: Re: 検索結果の拡張子を変更する方法は?)



 From: "virtual-office" <virtual-office@xxxxxxxxxxxxx>
 Subject: [namazu-users-ja] Re: 検索結果の拡張子を変更する方法は?
 Date: Sat, 10 Nov 2001 01:32:34 +0900

 > アーカイブファイルから特定のファイルのみを選んで解凍することは可能なので
 > Namazuにも同様のインデックス化する機能があるものと読み違えてました。

hoge.zip (あるいは hoge.lzh や hoge.tar.gz と読み替えても可)の中に、
path1/hoge1.txt, path2/hoge2.txt, ... がまとめられているとして、イ
ンデックス時に unzip hoge.zip (あるいは lha x hoge.lzh や tar zxvf
hoge.tar.gz) などとして展開して、path1/hoge1.txt, path2/hoge2.txt,
... をインデックスするようにすることは、それほど難しくないでしょう。

しかし、namazu あるいは namazu.cgi で検索したときに、どのように結
果表示すればいいのか、というユーザインタフェースの問題が残ります。

(おそらく多数の文書ファイルを含むであろう)アーカイブファイルの中の、
たった一つの文書の中に求めるキーワードが含まれているからといって、
検索結果URLとして /somewhere/hoge.zip だけを示すだけでは、いったい
どの文書に含まれているかもわからないし、おそらく適切ではないだろう、
というのが一般的な認識ではないでしょうか。


もちろん、たとえば、/somewhere/hoge.zip#path/hoge1.txt などと示す
ことは可能だろうとおもいますが、このURLをクリックしたら、(自動的に 
hoge.zip を展開して) path1/hoge1.txt だけが出てくると言うような 
webブラウザは、寡聞にして私は知りません。設定でどうにかなるのかも
知りません。

しかし、検索対象外になるよりは検索できた方がいいという考え方もある
でしょう。アーカイブファイル中のファイル名がわかっているなら、最悪
でもあとは取ってきて手動で展開すればいいだけのことですから。

複数ドキュメントを含むアーカイブファイルへのインデクシングの問題の
良いフレームワークを考えたい、というのは、--html-split オプション
や, 実験的に出てきている --pdf-split オプション(*)の再編成も含めて、
開発者の間で認識されてはいるとおもいます。

(*) http://www.namazu.org/ml/namazu-devel-ja/msg01951.html

もっとも、バージョン 2.1 matter なんだろうとはおもいますが、まあ、
「未対応です、はい、おしまい」だけで済ませてしまうには惜しい問題が
含まれているということなんでしょうね。

# 寺西さんはこのあたりはもちろんご承知の上での発言でしょう。
--
馬場  肇 ( Hajime BABA )                  E-mail: hajime.baba@xxxxxxxxx
国立天文台 天文学データ解析計算センター
--