namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

namazu-v1.2.0-proto-10.tar.gz (Re: namazu-v1.2.0-proto-9.tar.gz)



Satoru Takabayashi <ccsatoru@xxxxxxxxxxxxxxxxxx> wrote:

>namazu-v1.2.0-proto-9.tar.gzでは ON_MEMORY_MAX に合わせてディスク
>に待避しながらフレーズ検索用インデックスの作成処理を行うようにした
>のでたぶんいけると思います。インデックスの追加にも対応しています。

namazu-v1.2.0-proto-10.tar.gz を作りました。マニュアルも加筆してお
きました。例によって

<URL:http://saturn.aichi-u.ac.jp/%7Eccsatoru/Namazu/proto/>

に置いておきます。この版ではハッシュの計算を単語単位ではなく 2語単
位で行うようにしました。

単語毎に計算すると the や of のような頻出する語とハッシュ値が重なっ
てしまう単語がでてきて精度が落ちやすいからです。現在の実装ではフレー
ズは 2語単位で 0-65535のハッシュ値に変換して記録しています。

2語単位で記録しているので、たとえば "foo bar baz" というフレーズを
検索すると

...
foo bar ...
... bar baz

のように "foo bar" と "bar baz" の含まれるファイルもヒットしてしま
います。これはちょっと困ったことですが、少なくとも foo, bar, baz 
は含まれているわけなので、候補を絞るという意味では効果があります。
("foo & bar & baz" よりは候補を絞れるということです)。

理想的には "foo bar baz" を確実に検索できた方が望ましいのですが、
インデックスのサイズとの兼ね合いもあるのでこの辺で妥協しても良いよ
うな気がします (中途半端ではあるけど)。

# せっかく作ったんだし ;-)

--
高林 哲 Satoru Takabayashi