Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: phrase search
Rei FURUKAWA <furukawa@xxxxxxxxxxxx> wrote:
>satoru-t> % cat COPYING | tr A-Z a-z | bigram | wc -l
>satoru-t> 2988
>
>これは、概念的には、'wc -w COPYING' と同義と思っていいですか?
はい。
>satoru-t> という比率になると予想できます。約1.5倍です (かなり大ざっぱ
>satoru-t> ですが)。何か勘違いしているかなあ。どうでしょう? > 古川さん
>
>前者の大きさは、検索対象ファイルに比例して (厳密には違うけど) 大き
>くなっていってしまうわけですよね?貧乏症の私は、そこが気になってし
>まいますが、でも、「それが必要ならば、かまうこたあない」です。
はい。今回提案している手法では「検索対象ファイルに比例」しま
す。従来の手法では少し小さくなりました。
>検索対象ファイル群が「小さなファイルがたくさん」ならば、どちらの方
>法も、悪くはないと思いますが、個々のファイルが大きくなったときのデ
>メリットを、どういう形で引き受けるか、という選択の問題ですね。
はい。大きめのテキストファイル (約100KB) で試しました。
% wc -w rfc788.txt
11815 rfc788.txt
% cat rfc788.txt |tr A-Z a-z | bigram | sort | uniq |wc -l
5755
大きくなると 2倍くらいの差がでますね。
>私としては、語の出現回数が分かることも、メリットです。スコアよりも、
>出現回数の方が、再利用の価値の高い情報だと思います。
スコアは基本的に出現回数で算出し、見出しなどに含まれる単語に
は重みをつけていました。今回提案している手法では、出現位置の
リストとは別に重みづけの情報を記録すればいいですね。
>それと、出現位置が記録されていると、kakasi/chasen がなくても、それな
>りの検索ができるようになる気がします。これが一番のメリットかな。
kakasi/chasenを使わずに 1文字単位でインデックスを作ればでき
ますね。
p.s.
mifluz を使うといいかも。ちょっと試してみよう。
-- Satoru Takabayashi