namazu-ml(avocado)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Phrase search (Re: [Q] OpenText Style?)
>> 単語毎に計算すると the や of のような頻出する語とハッシュ値が重なっ
>> てしまう単語がでてきて精度が落ちやすいからです。現在の実装ではフレー
>> ズは 2語単位で 0-65535のハッシュ値に変換して記録しています。
>
> 直感的に、これは素晴しい、と思いました。が、現在の計算方法だと、4 byte
> の語の並びが逆でも、必ず計算が合ってしまうようです。
うーん、ハッシュ関数の性質がちょうどそうなっているみたいですね。乱
数表を4つから 8つに増やせばとりあえず回避できますが。
現在の実装では 2単語づつのフレーズを重ねているだけなので 3語以上の
フレーズは結構ハズレます。これはやっぱり悲しいものがあるので、もっ
と良い方法が見つかれば置き換えたいと思っています。
# とりあえず、ないよりはましということで…
--
高林 哲 Satoru Takabayashi