namazu-dev(ring)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: stopword (Re: How to get tf value?)
小松です。
Satoru> # stopword を除外すると "to be or not to be" が検索できなく
Satoru> # なる、という例が載っています
検索用としては、なるほど、その通りですね。"to be or not to be"
をフレーズ登録するという手もありそうですが、mknmz の負担が大きく
なりすぎるかもしれません。
とりあえず、gnmz 的には、自前で stop words 排除をすることにしま
した。KAKASI だと、日本語の stemming もしないといけなさそうですが、
ううむ... まあ、ゆっくりやりましょう。
> Information Retrieval Data Structures and Algorithms
> <http://www1.fatbrain.com/asp/bookinfo/bookinfo.asp?theisbn=0134638379>
>
> に英文の stopword 425個のリストが載っていました。参考までに
> メイル末尾に添付しておきます。(暇な人に入力してもらった :-)
これは助かります。ありがとうございます。
> 必要とあれば stopword を扱う機能をつけます。どんな機能が欲し
> いですか?
というわけで、今のところ、mknmz 的には、stopword は必要ないようです
が、「名詞のみ」オプションのほかに、「名詞」のウェイトを高くかける
けれども、その他の品詞を排除しないオプションが欲しいかな、と思って
います。有効性は未知数です。
# KAKASI で困っているのは、「あつせん」などの平仮名キーワード
# なのですが、、、
*-------------------------------------------------------
Hiroshi Komatsu <sui_feng@xxxxxxxxxxxxx>
URL http://home2.highway.ne.jp/sui_feng/index.html