Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
最大ヒット数の判定を誤るバグを修正
- From: Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx>
- Date: Tue, 17 Jun 2003 00:16:03 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 02987
寺西です。
NMZ.i のファイル仕様に誤りがあるものと思われましたので、いろいろと
調べたところ、namazu でファイル仕様に従って実装している部分があり、
バグとなっていました。
具体的にはヒットした単語の文章の総数を、下記の仕様に基づき、
NMZ.i のデータから算出している部分があります。
つまり、[単語1を含む文書の総数 * 2] を 2 で割って使っている部分です。
> NMZ.iのファイル仕様の
> 構造
> [単語1を含む文書の総数 * 2][文書ID][スコア][文書ID][スコア]...
> [単語2を含む文書の総数 * 2][文書ID][スコア][文書ID][スコア]...
> [単語3を含む文書の総数 * 2][文書ID][スコア][文書ID][スコア]...
実際には、文書ID,スコア...のBERデータサイズ(可変長)のため、2 で
割っても文章の総数は求まりません。
このため、.namazurc の MaxHit で指定した値より Hit した文章が
少なくても、Hit 数が多すぎると判定されることがありました。
今回、これを修正し、commit しました。(stable-2-0, HEAD)
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E