namazu-dev(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: stopword (Re: How to get tf value?)



小松です。

Satoru> # stopword を除外すると "to be or not to be" が検索できなく
Satoru> # なる、という例が載っています

 検索用としては、なるほど、その通りですね。"to be or not to be"
をフレーズ登録するという手もありそうですが、mknmz の負担が大きく
なりすぎるかもしれません。

 とりあえず、gnmz 的には、自前で stop words 排除をすることにしま
した。KAKASI だと、日本語の stemming もしないといけなさそうですが、
ううむ... まあ、ゆっくりやりましょう。

>   Information Retrieval Data Structures and Algorithms
>   <http://www1.fatbrain.com/asp/bookinfo/bookinfo.asp?theisbn=0134638379>
> 
> に英文の stopword 425個のリストが載っていました。参考までに
> メイル末尾に添付しておきます。(暇な人に入力してもらった :-)

 これは助かります。ありがとうございます。

> 必要とあれば stopword を扱う機能をつけます。どんな機能が欲し
> いですか?

 というわけで、今のところ、mknmz 的には、stopword は必要ないようです
が、「名詞のみ」オプションのほかに、「名詞」のウェイトを高くかける
けれども、その他の品詞を排除しないオプションが欲しいかな、と思って
います。有効性は未知数です。

# KAKASI で困っているのは、「あつせん」などの平仮名キーワード
# なのですが、、、

*-------------------------------------------------------
  Hiroshi Komatsu <sui_feng@xxxxxxxxxxxxx>
  URL  http://home2.highway.ne.jp/sui_feng/index.html