namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Phrase search (Re: [Q] OpenText Style?)



古川です。

>> On Sat, 30 May 1998 09:45:53 +0900, Satoru Takabayashi <ccsatoru@xxxxxxxxxxxxxxxxxx> said:
  > えっと、これは -1 のようにしておかないと有効な値かそうでないかの区
  > 別がつかないのでそうしています。 -1ならハズレというわけです。

NMZ.ii を読むときと同じフォーマットにして、$l == $r ならハズレ、という
のにすると、共通化できていいかなあ、と思ったのですが、よく見ると、今の
読みかたは、NMZ.fi の読みかたと共通化できそうですね。わかりました。


>> On Mon, 1 Jun 1998 03:12:52 +0900, Satoru Takabayashi <ccsatoru@xxxxxxxxxxxxxxxxxx> said:
  > 単語毎に計算すると the や of のような頻出する語とハッシュ値が重なっ
  > てしまう単語がでてきて精度が落ちやすいからです。現在の実装ではフレー
  > ズは 2語単位で 0-65535のハッシュ値に変換して記録しています。

直感的に、これは素晴しい、と思いました。が、現在の計算方法だと、4 byte
の語の並びが逆でも、必ず計算が合ってしまうようです。

    例: 「愛知」「大学」と「大学」「愛知」

-- 

                                        ヤマハ(株)ピアノプレーヤ設計課
                                                              古川 令
                                             furukawa@xxxxxxxxxxxxxxxx