Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: スコアリングについて
- From: Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx>
- Date: Tue, 06 Jan 2004 01:44:33 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 03511
- References: <20040105181524.42723011@ulis.ac.jp>
寺西です。
# Chasen は使っていないので何ですが。
Hideyuki Takahashi wrote:
>
> mknmzをここ数日10回以上(対象文書1ギガ!)やっていて気づいたのですが、
> html時のtitleタグのスコアリングがどうもおかしいです。
>
> 具体的には、chasenを用いたとき、-Kオプションがつけると、
> タグのスコアリングの数字までが単語登録され、
> スコア(+16)が加算されません。
具体的には TITLE タグはどのような値を設定しているので
しょう。どんな TITLE タグでもダメなんでしょうか?
> http://www.namazu.org/ml/namazu-users-ja/msg02168.htmlの
> 状態と同じだと思います。
で、パッチは正しく当たっているのでしょうか?
kakasi で同じファイルを処理した場合は正しい結果になるのでしょうか?
kakasi でも同じ症状がでるなら Namazu 側が怪しい。kakasi では
正しい結果が得られるのなら、Chasen 側が怪しいということになります。
# 必ずということはありませんが。
> 開発版がどうなっているかチラッと見たのですが、
> よくわからず、断念してしまいました。
-K の処理は少し手を加えているので、結果が異なる可能性はないわけ
ではありません。
> ついでに、これも古い話ですが、
> http://www.namazu.org/ml/namazu-devel-ja/msg02723.htmlの
> 話題のスコア値の+1について。
> このトリックは、TF-IDFに関係しています。
>
> IDFは、idf=log2(N/n)Nで求まりますが、
> このときN=n(総文書数=全ヒット文書数)の場合、
> カッコ内が1となり、IDF=0になってしまいます。
> これをTFにかけると、スコアが0になってしまうため、
> 打開策として+1をしてるんだと思います。
> というわけで7不思議を減らしてしまい、ごめんなさい。
いや、スコア 0 のままでも別にいいはずだが、それをわざわざ +1 して
1 からの値にしている理由がわからないって話なんですけど。
# まぁ、スコア 0 っていうのが嫌だったんだろうということは容易に
# 想像付くわけですが、明文化されていないわけで...。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E