Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: スコアリングについて
寺西です。
Hideyuki Takahashi wrote:
>
> >具体的には TITLE タグはどのような値を設定しているので
> >しょう。どんな TITLE タグでもダメなんでしょうか?
>
> タイトルタグの値の設定という意味がよくわかりませんが、
> フィールド検索の+subject:TITLE_WORDで数件確認したところ、
> やはり+16はされていませんでした。
要するに
<TITLE>xxxx</TITLE>
の辺りがどのような内容になっている HTML ファイルを使っているのか?
ということです。
再現できる最小限の HTML ファイルを提示していただいても結構です。
> >kakasi で同じファイルを処理した場合は正しい結果になるのでしょうか?
...
> 結果は、実行時間と追加キーワード数の違いのみ。
> やはり、-Kをつけると、タイトルタグの重み付けがされず、
> 且つ、16がキーワードとして追加されてしまいます。
> つまり、chasenまたは、kakasiでの問題ではないことがわかります。
そうですか。
では、
http://www.namazu.org/ml/namazu-users-ja/msg02168.html
とは別ということですね。
> というわけでやはり、mknmzの
> $$contref =~ tr/\xa1-\xfea-z0-9/ /c if $var::Opt{'nosymbol'}
> のところが原因だと思いますが、どうでしょうか。
その可能性は高いでしょう。
対処方法としては、ここを触るのか、あるいは別のところを触るべき
なのかは要検討ですね。再現できるデータでテストしてから考えます。
nosymbol の処理をもう少し後で行うのが良いのかもしれません。
# ちょっと今、プログラムを触れる環境にないので、実はどんな
# HTML ファイルでも簡単に再現できるのかもしれませんけど、
# 確認がとれない状況でして、すみません。
> >いや、スコア 0 のままでも別にいいはずだが、それをわざわざ +1 して
> >1 からの値にしている理由がわからないって話なんですけど。
>
> そうでしたか。
> なんか、醜態をさらしたみたいで恥ずかしい限りです。
いえいえ。いろいろとご意見いただいて、ありがたいです。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E