namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Phrase search (Re: [Q] OpenText Style?)



Kenji Suzuki <kenji@xxxxxxxxxxxxxxxx> wrote:

>> フレーズ検索の実装に関して何かアイディアがあったら教えてください。
>
>文書中の位置情報(何単語目か)も index すればいいのでは?
>
>キーワード 文書番号:出現位置
>if         100:1,..........
>i          100:2,..........
>like       100:3,..........
>a          100:4,..........
>
>みたいな感じでどうでしょうか?

うーん、最初に思いついたのはこの方法なのですが (「サーチエンジン徹
底活用術[1]」にもこれと同じような図があります)、これだとインデック
スが巨大になる気がします ("the" とか)。私が先ほど示した方法も大差
ないかもしれませんが。

# フレーズ検索用のインデックスを別にしたいという考えもあります。

ちなみに、正規表現の検索は手元ではとりあえず動いています。ただしパ
ターンが複雑になるとちょっと時間がかかるようです。 10万語でだいた
い 0.5〜5秒くらいです。 "(foo|bar|baz)" みたいなパターンに弱いです。

Reference

1. <URL:http://www.ohmsha.co.jp/data/books/contents/4-274-06230-9.htm>

--
高林 哲 Satoru Takabayashi