namazu-ml(avocado)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Phrase search (Re: [Q] OpenText Style?)
- From: Rei FURUKAWA <furukawa@xxxxxxxxxxxxxxxx>
- Date: Mon, 1 Jun 1998 12:52:53 +0900
- X-ml-name: namazu
- X-mail-count: 00746
古川です。
>> On Sat, 30 May 1998 09:45:53 +0900, Satoru Takabayashi <ccsatoru@xxxxxxxxxxxxxxxxxx> said:
> えっと、これは -1 のようにしておかないと有効な値かそうでないかの区
> 別がつかないのでそうしています。 -1ならハズレというわけです。
NMZ.ii を読むときと同じフォーマットにして、$l == $r ならハズレ、という
のにすると、共通化できていいかなあ、と思ったのですが、よく見ると、今の
読みかたは、NMZ.fi の読みかたと共通化できそうですね。わかりました。
>> On Mon, 1 Jun 1998 03:12:52 +0900, Satoru Takabayashi <ccsatoru@xxxxxxxxxxxxxxxxxx> said:
> 単語毎に計算すると the や of のような頻出する語とハッシュ値が重なっ
> てしまう単語がでてきて精度が落ちやすいからです。現在の実装ではフレー
> ズは 2語単位で 0-65535のハッシュ値に変換して記録しています。
直感的に、これは素晴しい、と思いました。が、現在の計算方法だと、4 byte
の語の並びが逆でも、必ず計算が合ってしまうようです。
例: 「愛知」「大学」と「大学」「愛知」
--
ヤマハ(株)ピアノプレーヤ設計課
古川 令
furukawa@xxxxxxxxxxxxxxxx