Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: スコアリングについて
寺西です。
Hideyuki Takahashi wrote:
>
> サンプルデータを以下に示します。
...
> [deyu2@kamina temp]$ less temp.html
> <html>
> <head>
> <title>temp file</title>
> </head>
> hello world.
> </body>
やっと動作確認できる環境を構築しましたので、確認しました。
また、症状が再現するのも確認しました。
> どういうことか、mknmzを追ってみたのですが、
> $$contref =~ tr/\xa1-\xfea-z0-9/ /c if $var::Opt{'nosymbol'}
> (line 2211)のところで、
> 右側のタグのスラッシュがけずられ、
> その後のline 2227の、
> $part2 =~ s!\x7f *(\d+) *\x7f([^\x7f]*)\x7f */ *\d+ *x7f!
> のところが偽になり、16とtitleにある単語が登録される、
> というようなことになったと思われます。
>
> 例)
> \x7f 16 \x7f TITLE_WORD \x7f /16 \x7f (line 2211前)
> \x7f 16 \x7f TITLE_WORD \x7f 16 \x7f (line 2211後)
ほぼそうですが、\x7f も削られてしまうようです。
# ダメじゃん。
wordcount_sub() で nosymbol の処理をするのが簡単そうですが、
パフォーマンスに影響しますかね。
また、HEAD の方は -K がうまく機能していないようにも見えます。
(削除している部分が見当たらない)
こっちも _wordcount_sub() で nosymbol の処理を行えば、良いよう
です。
簡単なテストは済みましたので、近日中にパッチを公開します。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E