namazu-ml(avocado)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Phrase search (Re: [Q] OpenText Style?)

From: Rei FURUKAWA <furukawa@xxxxxxxxxxxxxxxx>
Date: Mon, 1 Jun 1998 12:52:53 +0900
X-ml-name: namazu
X-mail-count: 00746

古川です。

>> On Sat, 30 May 1998 09:45:53 +0900, Satoru Takabayashi <ccsatoru@xxxxxxxxxxxxxxxxxx> said:
  > えっと、これは -1 のようにしておかないと有効な値かそうでないかの区
  > 別がつかないのでそうしています。 -1ならハズレというわけです。

NMZ.ii を読むときと同じフォーマットにして、$l == $r ならハズレ、という
のにすると、共通化できていいかなあ、と思ったのですが、よく見ると、今の
読みかたは、NMZ.fi の読みかたと共通化できそうですね。わかりました。


>> On Mon, 1 Jun 1998 03:12:52 +0900, Satoru Takabayashi <ccsatoru@xxxxxxxxxxxxxxxxxx> said:
  > 単語毎に計算すると the や of のような頻出する語とハッシュ値が重なっ
  > てしまう単語がでてきて精度が落ちやすいからです。現在の実装ではフレー
  > ズは 2語単位で 0-65535のハッシュ値に変換して記録しています。

直感的に、これは素晴しい、と思いました。が、現在の計算方法だと、4 byte
の語の並びが逆でも、必ず計算が合ってしまうようです。

    例: 「愛知」「大学」と「大学」「愛知」

-- 

                                        ヤマハ(株)ピアノプレーヤ設計課
                                                              古川 令
                                             furukawa@xxxxxxxxxxxxxxxx

Follow-Ups:
- Re: Phrase search (Re: [Q] OpenText Style?)
  - From: Satoru Takabayashi

References:
- Re: Phrase search (Re: [Q] OpenText Style?)
  - From: Satoru Takabayashi

Prev by Date: namazu-v1.2.0-proto-10.tar.gz (Re: namazu-v1.2.0-proto-9.tar.gz)
Next by Date: Re: Phrase search (Re: [Q] OpenText Style?)
Previous by thread: Re: Phrase search (Re: [Q] OpenText Style?)
Next by thread: Re: Phrase search (Re: [Q] OpenText Style?)
Index(es):
- Date
- Thread