Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: フレーズ検索のHASH値への変換方法



寺西です。

"Komai @home" wrote:
> 
> これは、nmzrを作っていて思ったのですが、
> NMZ.iのファイル仕様の
> 構造
>     [単語1を含む文書の総数 * 2][文書ID][スコア][文書ID][スコア]...
>     [単語2を含む文書の総数 * 2][文書ID][スコア][文書ID][スコア]...
>     [単語3を含む文書の総数 * 2][文書ID][スコア][文書ID][スコア]...
> の単語1を含む文書の総数×2というのは
> 単語1を含む文書IDの総数のBER数値のバイト数+単語1を含む文書のスコア値のBER数値のバイト数
> のような気がしますが、如何でしょうか?
> BER圧縮は可変長なので、かならず偶数にはならないと思うのです。。
> これもはずしていたら、すみません。。。
> (というか自分では勝手にそう思い込んで(^^;)、nmzrを作ってしまいましたが。。)

単純に「単語1を含む文書の総数 * 2」の BER 値だと思います。
(というか、自分はそう思い込んで、プログラムを書いていますが...。)

これは、文書ID の総数と スコアの総数 であり、(文書IDの個数と
スコアの個数は同じため)結果的には 文書の総数 * 2 になっている
のではないかと思います。
あくまでも個数であって、バイト数ではないので偶数でもなんら問題
ないでしょう。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E