namazu-dev(ring)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: easy way to compress NMZ.i and NMZ.p
Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx> wrote:
>Modern Information Retrieval
><http://www1.fatbrain.com/asp/bookinfo/bookinfo.asp?theisbn=020139829x>
>なる本を読んでいて、NMZ.i と NMZ.p を圧縮する単純な方法を知
>りました。 (気づいてみればあきれるほど単純)
(snip)
>差分で記録すれば当然、各値を表すためのビット数が減りますから、
>pack 'w' の効果と合わせて、インデックスのサイズは小さくなり
>ます。というわけで、のちほど実装してみます。
実験してみました。対象はとあるメイリングリストの 303通のメイ
ルです。
これまでの実装
NMZ.i: 377,100
NMZ.p: 154,919
新しい実装
NMZ.i: 348,492
NMZ.p: 154,661
参考: v1.3.0.9 の実装
NMZ.i: 715,090
NMZ.p: 474,900
...
思ったより効果はなかったけど、単純な手法なので採用したいと思
います。対象とするファイルがもっと多ければ効果が上がるかもし
れません。今日中にきちんとまとめて commit します。
-- Satoru Takabayashi