Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: phrase search



Rei FURUKAWA <furukawa@xxxxxxxxxxxx> wrote:

>satoru-t>   % cat COPYING | tr A-Z a-z | bigram | wc -l
>satoru-t>      2988
>
>これは、概念的には、'wc -w COPYING' と同義と思っていいですか?

はい。


>satoru-t> という比率になると予想できます。約1.5倍です (かなり大ざっぱ
>satoru-t> ですが)。何か勘違いしているかなあ。どうでしょう? > 古川さん
>
>前者の大きさは、検索対象ファイルに比例して (厳密には違うけど) 大き
>くなっていってしまうわけですよね?貧乏症の私は、そこが気になってし
>まいますが、でも、「それが必要ならば、かまうこたあない」です。

はい。今回提案している手法では「検索対象ファイルに比例」しま
す。従来の手法では少し小さくなりました。


>検索対象ファイル群が「小さなファイルがたくさん」ならば、どちらの方
>法も、悪くはないと思いますが、個々のファイルが大きくなったときのデ
>メリットを、どういう形で引き受けるか、という選択の問題ですね。

はい。大きめのテキストファイル (約100KB) で試しました。

  % wc -w rfc788.txt                                        
    11815 rfc788.txt

  % cat rfc788.txt |tr A-Z a-z | bigram | sort | uniq |wc -l
     5755

大きくなると 2倍くらいの差がでますね。


>私としては、語の出現回数が分かることも、メリットです。スコアよりも、
>出現回数の方が、再利用の価値の高い情報だと思います。

スコアは基本的に出現回数で算出し、見出しなどに含まれる単語に
は重みをつけていました。今回提案している手法では、出現位置の
リストとは別に重みづけの情報を記録すればいいですね。


>それと、出現位置が記録されていると、kakasi/chasen がなくても、それな
>りの検索ができるようになる気がします。これが一番のメリットかな。

kakasi/chasenを使わずに 1文字単位でインデックスを作ればでき
ますね。

p.s.
mifluz を使うといいかも。ちょっと試してみよう。

-- Satoru Takabayashi