Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
NMZ.* ファイルの仕様について
- From: Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx>
- Date: Mon, 16 Jun 2003 23:52:28 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 02986
寺西です。
既に小舞さんが指摘されておりますが、NMZ.* ファイルの仕様において
(総合的に判断すると)誤植があるものと思われます。
http://www.namazu.org/doc/nmz.html.ja
> NMZ.iのファイル仕様の
> 構造
> [単語1を含む文書の総数 * 2][文書ID][スコア][文書ID][スコア]...
> [単語2を含む文書の総数 * 2][文書ID][スコア][文書ID][スコア]...
> [単語3を含む文書の総数 * 2][文書ID][スコア][文書ID][スコア]...
の「単語1を含む文書の総数 * 2」は誤りであり、実際には文書ID,スコア
の BER データのバイト数になっています。
このため、
[元の表現]
[単語1を含む文書の総数 * 2][文書ID][スコア][文書ID][スコア]...
[寺西案]
[単語1を含む文書IDとスコアのバイト数][文書ID][スコア][文書ID][スコア]...
[小舞案1]
「単語1でHITのデータ領域のBER範囲」[文書ID][スコア][文書ID][スコア]...
[小舞案2]
「単語1に関するデータ領域のバイト数」[文書ID][スコア][文書ID][スコア]...
他、適切な内容に変更を希望します。
また、
NMZ.p ファイル仕様も同様です。ハッシュ値\x0000を含む文書数ではなく、
これも BER データのバイト数になります。
[元の表現]
[ハッシュ値\x0000を含む文書数][ハッシュ値\x0000を含む文書ID]...
[修正案]
[ハッシュ値\x0000に関するデータ領域のバイト数][ハッシュ値\x0000を含む文
書ID]...
あたりになるでしょうか。
加えて、
[ハッシュ値\x0000を含む文書数][ハッシュ値\x0000を含む文書ID]...
[ハッシュ値\x0000を含む文書数][ハッシュ値\x0001を含む文書ID]...
[ハッシュ値\x0000を含む文書数][ハッシュ値\xffffを含む文書ID]...
は
[ハッシュ値\x0000を含む文書数][ハッシュ値\x0000を含む文書ID]...
[ハッシュ値\x0001を含む文書数][ハッシュ値\x0001を含む文書ID]...
[ハッシュ値\xffffを含む文書数][ハッシュ値\xffffを含む文書ID]...
の誤りです。元の表現では、全てハッシュ値x0000になっています。
# namazu-web は修正できないので、どなたかよろしくお願いします。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E