namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Phrase search (Re: [Q] OpenText Style?)



>> 単語毎に計算すると the や of のような頻出する語とハッシュ値が重なっ
>> てしまう単語がでてきて精度が落ちやすいからです。現在の実装ではフレー
>> ズは 2語単位で 0-65535のハッシュ値に変換して記録しています。
> 
> 直感的に、これは素晴しい、と思いました。が、現在の計算方法だと、4 byte
> の語の並びが逆でも、必ず計算が合ってしまうようです。

うーん、ハッシュ関数の性質がちょうどそうなっているみたいですね。乱
数表を4つから 8つに増やせばとりあえず回避できますが。

現在の実装では 2単語づつのフレーズを重ねているだけなので 3語以上の
フレーズは結構ハズレます。これはやっぱり悲しいものがあるので、もっ
と良い方法が見つかれば置き換えたいと思っています。

# とりあえず、ないよりはましということで…

--
高林 哲 Satoru Takabayashi