Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: インデクスの縮小化
寺西です。
Hideyuki Takahashi wrote:
>
> >namazu コマンド(namazu.cgiを含む) だけがインデックスファイルを
> >読み込むわけではないので、多少インデックスが小さくなるよりは、
> >簡単に読み出せる方が良いとは思います。
>
> 他のというとpnamazuを代表とした、検索クライアントのことでしょうか。
> そっちのほうはあまり詳しくないもので。
特に何か特定しているわけではありません。namazu クライアントソフト
全般の話です。
また、インデックスを作成する別のソフトウェア(今後作られるかもしれない
ものを含む)のこともありますので、労力に見合うだけのメリットのある
ものが良いでしょう。
>>今のところ mknmz では制限を加えずにインデックスを作成し、
>>namazu で最大ヒット数を指定して検索するというスタイルだったと思う
>>のですが、インデックス作成時にも最大文書数を指定できるようにすれば、
>>インデックスを小さくできるのではないかと思います。
>
> なるほど。
> 個人的には、検索システムは再現率100%(絶対条件)で、
> スコアの低いものはオプションで切り捨てる、というような
> 構造がベストだと思っているのですが、皆様いかがでしょう。
インデックス作成時に最大文章数を指定し、検索時に最大ヒット数を
指定するということです。
最大文書数を unlimit にすれば、現状と同じです。
最大文章数を指定することは、インデックス作成時にもオプションで
スコアの低いものを切り捨てることができるということです。
フォーマットも変更する必要がないので 2.0系でも使えます。
が、ここで問題発生。単語検索用途でつい考えてしまっていて、
AND 検索でこれをやると、極端にヒット率が悪くなることが予測
されます。
ということで、単語検索用途でしか意味をなさない気がしてきました。
# 自分の用途のことしか頭が回っていなかった。むむむ。
> >Namazu 2.0.12 を修正されているようですが、できましたら HEAD を
> >修正してください。
> >Namazu 2.0系はインデックスのフォーマットは変更できないしばりが
> >あるので、2.1系に手を加えるのが効率的です。
> >そのまま 2.1系に反映させることもできるでしょう。
> >また、修正ファイル全部ではなくて差分だけの方が良いです。
>
> CVSの使い方がそもそもよくわかっていないのですが、
> 寺西さんがおっしゃっていることは、
> HEADにある最新版のファイルを修正する、ということでしょうか。
http://www.namazu.org/development.html
開発版(2.1)は HEAD というブランチで開発しています。
安定版(2.0)は stable-2-0 というブランチで開発しています。
今回はインデックスのフォーマットを変える話ですので、2.0 系で作って
も、それを反映することはないわけですから、HEAD で開発を行うのが
良いわけです。
> 差分のとり方はなんとなくわかるのですが、
> それをCVSにアップする、ということでしょうか。
committer でないと commit できませんが、HEAD のソースは誰でも
入手可能です。
HEAD のソースを入手していただいて、それに修正を加え、元のファイル
との差分を開示していただければ良いということです。
修正されたソース全部だと、冗長なので無駄なんです。(差分で十分)
差分を示していただければ、それを誰かがテストしたりするこは可能です
ので、いろいろと議論を進めることができます。
良い修正案なら誰か committer が commit してくれるでしょう。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E