namazu-ml(avocado)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Phrase search (Re: [Q] OpenText Style?)
- From: Satoru Takabayashi <ccsatoru@xxxxxxxxxxxxxxxxxx>
- Date: Fri, 22 May 1998 15:12:14 +0900
- X-ml-name: namazu
- X-mail-count: 00683
- References: <05400527124324@po.ganseki.ne.jp>
Kenji Suzuki <kenji@xxxxxxxxxxxxxxxx> wrote:
>> フレーズ検索の実装に関して何かアイディアがあったら教えてください。
>
>文書中の位置情報(何単語目か)も index すればいいのでは?
>
>キーワード 文書番号:出現位置
>if 100:1,..........
>i 100:2,..........
>like 100:3,..........
>a 100:4,..........
>
>みたいな感じでどうでしょうか?
うーん、最初に思いついたのはこの方法なのですが (「サーチエンジン徹
底活用術[1]」にもこれと同じような図があります)、これだとインデック
スが巨大になる気がします ("the" とか)。私が先ほど示した方法も大差
ないかもしれませんが。
# フレーズ検索用のインデックスを別にしたいという考えもあります。
ちなみに、正規表現の検索は手元ではとりあえず動いています。ただしパ
ターンが複雑になるとちょっと時間がかかるようです。 10万語でだいた
い 0.5〜5秒くらいです。 "(foo|bar|baz)" みたいなパターンに弱いです。
Reference
1. <URL:http://www.ohmsha.co.jp/data/books/contents/4-274-06230-9.htm>
--
高林 哲 Satoru Takabayashi