namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: some small modifications



At 4:45 PM +0900 4/25/98, Satoru Takabayashi wrote:

> tf・idfは
>
>     idf   = log(N/n) / log(2);
>     score = tf * idf + 1;
>
> のように計算しています。最初は
>
>     idf   = log(N/n) / log(2) + 1;
>     score = tf * idf;
>
> のように計算したのですが、これだと "the" のような頻出単語のスコア
> を期待よりも落とせなかったので上のようにしました。与えられたキーワー
> ドがひとつのときは tf・idf の計算をしないようにしています。
>
> また、 tf・idf 法を用いたときは AND, OR 時ともにスコアは単純に足し
> 算して計算するようにしました。

INSEKI Fukui Search の検索エンジンを namazu-1122-snapshot-1
にアップグレードしてみました.

tf・idf 法ですが,よくわかりません.確かに score は変わり順
番もすこし変わるようですが,どちらが優れているかはまだ判断が
つきません.

ちなみに上記の計算式ですが,どなたか意味を解説していただける
とありがたいです.

#source を読めといわれそうですが...


 ______________________________________________________________
 Kenji Suzuki  <kenji@xxxxxxxxxxxxxxxx>     GANSEKI Users Group
  福井最強の検索エンジン http://www.inseki.gr.jp/‾kenji/search/
 _______________ Inseki is Not ganSEKI internet service. :-) __