namazu-ml(avocado)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Phrase search (Re: [Q] OpenText Style?)
- From: Rei FURUKAWA <furukawa@xxxxxxxxxxxxxxxx>
- Date: Wed, 27 May 1998 19:02:48 +0900
- X-ml-name: namazu
- X-mail-count: 00709
古川です。
>> On Sat, 23 May 1998 10:49:59 +0900, Satoru Takabayashi <ccsatoru@xxxxxxxxxxxxxxxxxx> said:
> 語からハッシュを計算すれば「番号」をどうするかという問題がなくなり
> ますね。素晴らしいです。あ、でも1/256 = 0.4% ではありますが「ハッ
> シュ値が一致する語の確率は 0.4%」は違うような気がします。大きいファ
> イルは衝突しやすいとか、語の頻度が関係してくると思います。たとえば
> "the" と "yamamoto" のハッシュ値が同じだったら? のように。
そうでした。'the taro' でもヒットしてしまいますね。
まあ、「冠詞は対象外」というルールもできますが、頻度の高い語は、他にも
たくさんありそうですから、本質的解決にはならないですね。
とくに、日本語の文章の中では、'the' より頻度の高い語は多そうです。
> それはともかく 8bit * 8bit の表を作れば二つの単語によるフレーズが
> ある程度の精度で調べられますよね (個々の単語のAND検索は済んでいる
> ので)。で、それを重ねていけば 3, 4, 5...語のフレーズ検索もできそう
> です。どの程度の精度が出るかは計算できません (私には無理)。
私にも無理。まあ、よく分からないから、作りやすそうなものから試してみる、
という方針でいいのではないでしょうか。
(そのほうがダメだったときのショックが小さいので)
高林さんの方で mknmz.pl の対応をしてもらえれば、まずは perl 版で実験、
というのでもいいですし。(ショックはさらに小さいでしょう)
--
ヤマハ(株)ピアノプレーヤ設計課
古川 令
furukawa@xxxxxxxxxxxxxxxx