Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: フレーズ検索のHASH値への変換方法
> 千葉市中央区長洲
> 藤原 誠
確かにレコード長では良くないですね。
では、「データ長」ではいかがでしょうか ?
============================================================
NMZ.i
単語毎に、それを含む文書 ID, そのスコアを可変長レコードで記録している。
はじめに、データ長 を置き、その後に「文書 ID + スコア」の組を置く。
最初のレコードが 単語1の情報、その次のレコードが単語2 の情報 である。
|← .......... データ長 1 ...... →|
+-------------+---------+--------+---------+--------+-
単語 1 | データ長 1 | 文書 ID | スコア | 文書 ID | スコア | .....
+-------------+---------+--------+---------+--------+-
|← .......... データ長 2 ...... →|
+-------------+---------+--------+---------+--------+-
単語 2 | データ長 2 | 文書 ID | スコア | 文書 ID | スコア | .....
+-------------+---------+--------+---------+--------+-
...
|← .......... データ長 n ...... →|
+-------------+---------+--------+---------+--------+-
単語 n | データ長 n | 文書 ID | スコア | 文書 ID | スコア | .
+-------------+---------+--------+---------+--------+-
実際には、上に書いたそれぞれの要素が pack 'w' 形式なので、それら
自体も可変長である。
============================================================
---
(藤原)