Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: インデクスの縮小化



寺西です。

Hideyuki Takahashi wrote:
> 
> >namazu コマンド(namazu.cgiを含む) だけがインデックスファイルを
> >読み込むわけではないので、多少インデックスが小さくなるよりは、
> >簡単に読み出せる方が良いとは思います。
> 
> 他のというとpnamazuを代表とした、検索クライアントのことでしょうか。
> そっちのほうはあまり詳しくないもので。

特に何か特定しているわけではありません。namazu クライアントソフト
全般の話です。
また、インデックスを作成する別のソフトウェア(今後作られるかもしれない
ものを含む)のこともありますので、労力に見合うだけのメリットのある
ものが良いでしょう。

>>今のところ mknmz では制限を加えずにインデックスを作成し、
>>namazu で最大ヒット数を指定して検索するというスタイルだったと思う
>>のですが、インデックス作成時にも最大文書数を指定できるようにすれば、
>>インデックスを小さくできるのではないかと思います。
>
> なるほど。
> 個人的には、検索システムは再現率100%(絶対条件)で、
> スコアの低いものはオプションで切り捨てる、というような
> 構造がベストだと思っているのですが、皆様いかがでしょう。

インデックス作成時に最大文章数を指定し、検索時に最大ヒット数を
指定するということです。
最大文書数を unlimit にすれば、現状と同じです。

最大文章数を指定することは、インデックス作成時にもオプションで
スコアの低いものを切り捨てることができるということです。

フォーマットも変更する必要がないので 2.0系でも使えます。

が、ここで問題発生。単語検索用途でつい考えてしまっていて、
AND 検索でこれをやると、極端にヒット率が悪くなることが予測
されます。
ということで、単語検索用途でしか意味をなさない気がしてきました。

# 自分の用途のことしか頭が回っていなかった。むむむ。

> >Namazu 2.0.12 を修正されているようですが、できましたら HEAD を
> >修正してください。
> >Namazu 2.0系はインデックスのフォーマットは変更できないしばりが
> >あるので、2.1系に手を加えるのが効率的です。
> >そのまま 2.1系に反映させることもできるでしょう。
> >また、修正ファイル全部ではなくて差分だけの方が良いです。
> 
> CVSの使い方がそもそもよくわかっていないのですが、
> 寺西さんがおっしゃっていることは、
> HEADにある最新版のファイルを修正する、ということでしょうか。

http://www.namazu.org/development.html

開発版(2.1)は HEAD というブランチで開発しています。
安定版(2.0)は stable-2-0 というブランチで開発しています。

今回はインデックスのフォーマットを変える話ですので、2.0 系で作って
も、それを反映することはないわけですから、HEAD で開発を行うのが
良いわけです。

> 差分のとり方はなんとなくわかるのですが、
> それをCVSにアップする、ということでしょうか。

committer でないと commit できませんが、HEAD のソースは誰でも
入手可能です。
HEAD のソースを入手していただいて、それに修正を加え、元のファイル
との差分を開示していただければ良いということです。
修正されたソース全部だと、冗長なので無駄なんです。(差分で十分) 

差分を示していただければ、それを誰かがテストしたりするこは可能です
ので、いろいろと議論を進めることができます。
良い修正案なら誰か committer が commit してくれるでしょう。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E