Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: フレーズ検索のHASH値への変換方法



>                                            千葉市中央区長洲
>                                                    藤原  誠
確かにレコード長では良くないですね。

では、「データ長」ではいかがでしょうか ?
============================================================
NMZ.i 
単語毎に、それを含む文書 ID, そのスコアを可変長レコードで記録している。

はじめに、データ長 を置き、その後に「文書 ID + スコア」の組を置く。
最初のレコードが 単語1の情報、その次のレコードが単語2 の情報 である。

                     |← ..........  データ長 1 ......         →|
       +-------------+---------+--------+---------+--------+-
単語 1 | データ長 1  | 文書 ID | スコア | 文書 ID | スコア | .....
       +-------------+---------+--------+---------+--------+-

                     |← ..........  データ長 2 ......             →|
       +-------------+---------+--------+---------+--------+-
単語 2 | データ長 2  | 文書 ID | スコア | 文書 ID | スコア |  .....
       +-------------+---------+--------+---------+--------+-
...

                     |← ..........  データ長 n ......      →|
       +-------------+---------+--------+---------+--------+-
単語 n | データ長 n  | 文書 ID | スコア | 文書 ID | スコア |  .
       +-------------+---------+--------+---------+--------+-

実際には、上に書いたそれぞれの要素が pack 'w' 形式なので、それら
自体も可変長である。
============================================================
---
(藤原)