Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: スコアリングについて



寺西です。

Hideyuki Takahashi wrote:
> 
> >具体的には TITLE タグはどのような値を設定しているので
> >しょう。どんな TITLE タグでもダメなんでしょうか?
> 
> タイトルタグの値の設定という意味がよくわかりませんが、
> フィールド検索の+subject:TITLE_WORDで数件確認したところ、
> やはり+16はされていませんでした。

要するに

<TITLE>xxxx</TITLE>

の辺りがどのような内容になっている HTML ファイルを使っているのか? 
ということです。

再現できる最小限の HTML ファイルを提示していただいても結構です。

> >kakasi で同じファイルを処理した場合は正しい結果になるのでしょうか? 
...
> 結果は、実行時間と追加キーワード数の違いのみ。
> やはり、-Kをつけると、タイトルタグの重み付けがされず、
> 且つ、16がキーワードとして追加されてしまいます。
> つまり、chasenまたは、kakasiでの問題ではないことがわかります。

そうですか。
では、
http://www.namazu.org/ml/namazu-users-ja/msg02168.html
とは別ということですね。

> というわけでやはり、mknmzの
> $$contref =~ tr/\xa1-\xfea-z0-9/   /c if $var::Opt{'nosymbol'}
> のところが原因だと思いますが、どうでしょうか。

その可能性は高いでしょう。

対処方法としては、ここを触るのか、あるいは別のところを触るべき
なのかは要検討ですね。再現できるデータでテストしてから考えます。

nosymbol の処理をもう少し後で行うのが良いのかもしれません。

# ちょっと今、プログラムを触れる環境にないので、実はどんな
# HTML ファイルでも簡単に再現できるのかもしれませんけど、
# 確認がとれない状況でして、すみません。

> >いや、スコア 0 のままでも別にいいはずだが、それをわざわざ +1 して
> >1 からの値にしている理由がわからないって話なんですけど。
> 
> そうでしたか。
> なんか、醜態をさらしたみたいで恥ずかしい限りです。

いえいえ。いろいろとご意見いただいて、ありがたいです。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E