Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: インデクスの縮小化



高橋です。

>アイデアは面白いですが、少々計算が面倒ではないかと思ったりします。

簡単に実験をしたところ、検索においてはスピードはほとんど変わりませんでした。
mknmzでは、時間が少し増えていました。
今度もう少しまじめにテストして見たいと思います。。

>データにも依存するのですが、単に文書数にする場合に比べて、
>どれほど縮小されるでしょうか?
>(さほど小さくならないのではないかと思いますが...。文書数が128を
>超えないと小さくならないだろうし。)

おっしゃるとおり、ほとんど変わらないですね。
データ長は概算して16384以下(2byte)のものがほとんどだと思うので、
それが1byteになるだけですから。

>総文書数が増えれば増えるほど、単語xを含む文書数が増えるので、
>大量の文書を扱う場合にはメリットが出てきますかね。

もちろん文書数が増えるほど理論上は縮小されますが、
所詮1byte・・・
まぁ、「少しでもインデクスを縮小する」という
コンセプトをもとにしたので。

>namazu コマンド(namazu.cgiを含む) だけがインデックスファイルを
>読み込むわけではないので、多少インデックスが小さくなるよりは、
>簡単に読み出せる方が良いとは思います。

他のというとpnamazuを代表とした、検索クライアントのことでしょうか。
そっちのほうはあまり詳しくないもので。

>今のところ mknmz では制限を加えずにインデックスを作成し、
>namazu で最大ヒット数を指定して検索するというスタイルだったと思う
>のですが、インデックス作成時にも最大文書数を指定できるようにすれば、
>インデックスを小さくできるのではないかと思います。

なるほど。
個人的には、検索システムは再現率100%(絶対条件)で、
スコアの低いものはオプションで切り捨てる、というような
構造がベストだと思っているのですが、皆様いかがでしょう。

>Namazu 2.0.12 を修正されているようですが、できましたら HEAD を
>修正してください。
>Namazu 2.0系はインデックスのフォーマットは変更できないしばりが
>あるので、2.1系に手を加えるのが効率的です。
>そのまま 2.1系に反映させることもできるでしょう。
>また、修正ファイル全部ではなくて差分だけの方が良いです。

CVSの使い方がそもそもよくわかっていないのですが、
寺西さんがおっしゃっていることは、
HEADにある最新版のファイルを修正する、ということでしょうか。
差分のとり方はなんとなくわかるのですが、
それをCVSにアップする、ということでしょうか。

# このMLの趣旨に合わない質問かもしれないです。
# 申し訳ございません。


図書館情報大学
 高橋英幸<k176@xxxxxxxxxx>