Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: スコアリングについて



寺西です。

# Chasen は使っていないので何ですが。

Hideyuki Takahashi wrote:
> 
> mknmzをここ数日10回以上(対象文書1ギガ!)やっていて気づいたのですが、
> html時のtitleタグのスコアリングがどうもおかしいです。
> 
> 具体的には、chasenを用いたとき、-Kオプションがつけると、
> タグのスコアリングの数字までが単語登録され、
> スコア(+16)が加算されません。

具体的には TITLE タグはどのような値を設定しているので
しょう。どんな TITLE タグでもダメなんでしょうか?

> http://www.namazu.org/ml/namazu-users-ja/msg02168.htmlの
> 状態と同じだと思います。

で、パッチは正しく当たっているのでしょうか?
kakasi で同じファイルを処理した場合は正しい結果になるのでしょうか?

kakasi でも同じ症状がでるなら Namazu 側が怪しい。kakasi では
正しい結果が得られるのなら、Chasen 側が怪しいということになります。
# 必ずということはありませんが。

> 開発版がどうなっているかチラッと見たのですが、
> よくわからず、断念してしまいました。

-K の処理は少し手を加えているので、結果が異なる可能性はないわけ
ではありません。

> ついでに、これも古い話ですが、
> http://www.namazu.org/ml/namazu-devel-ja/msg02723.htmlの
> 話題のスコア値の+1について。
> このトリックは、TF-IDFに関係しています。
> 
> IDFは、idf=log2(N/n)Nで求まりますが、
> このときN=n(総文書数=全ヒット文書数)の場合、
> カッコ内が1となり、IDF=0になってしまいます。
> これをTFにかけると、スコアが0になってしまうため、
> 打開策として+1をしてるんだと思います。
> というわけで7不思議を減らしてしまい、ごめんなさい。

いや、スコア 0 のままでも別にいいはずだが、それをわざわざ +1 して
1 からの値にしている理由がわからないって話なんですけど。

# まぁ、スコア 0 っていうのが嫌だったんだろうということは容易に
# 想像付くわけですが、明文化されていないわけで...。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E