namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Phrase search (Re: [Q] OpenText Style?)



古川です。

>> On Sat, 23 May 1998 10:49:59 +0900, Satoru Takabayashi <ccsatoru@xxxxxxxxxxxxxxxxxx> said:
  > 語からハッシュを計算すれば「番号」をどうするかという問題がなくなり
  > ますね。素晴らしいです。あ、でも1/256 = 0.4% ではありますが「ハッ
  > シュ値が一致する語の確率は 0.4%」は違うような気がします。大きいファ
  > イルは衝突しやすいとか、語の頻度が関係してくると思います。たとえば 
  > "the" と "yamamoto" のハッシュ値が同じだったら? のように。

そうでした。'the taro' でもヒットしてしまいますね。

まあ、「冠詞は対象外」というルールもできますが、頻度の高い語は、他にも
たくさんありそうですから、本質的解決にはならないですね。

とくに、日本語の文章の中では、'the' より頻度の高い語は多そうです。


  > それはともかく 8bit * 8bit の表を作れば二つの単語によるフレーズが
  > ある程度の精度で調べられますよね (個々の単語のAND検索は済んでいる
  > ので)。で、それを重ねていけば 3, 4, 5...語のフレーズ検索もできそう
  > です。どの程度の精度が出るかは計算できません (私には無理)。

私にも無理。まあ、よく分からないから、作りやすそうなものから試してみる、
という方針でいいのではないでしょうか。

(そのほうがダメだったときのショックが小さいので)

高林さんの方で mknmz.pl の対応をしてもらえれば、まずは perl 版で実験、
というのでもいいですし。(ショックはさらに小さいでしょう)

-- 

                                        ヤマハ(株)ピアノプレーヤ設計課
                                                              古川 令
                                             furukawa@xxxxxxxxxxxxxxxx