namazu-dev(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: easy way to compress NMZ.i and NMZ.p



Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx> wrote:

>Modern Information Retrieval
><http://www1.fatbrain.com/asp/bookinfo/bookinfo.asp?theisbn=020139829x>
>なる本を読んでいて、NMZ.i と NMZ.p を圧縮する単純な方法を知
>りました。 (気づいてみればあきれるほど単純)
(snip)
>差分で記録すれば当然、各値を表すためのビット数が減りますから、
>pack 'w' の効果と合わせて、インデックスのサイズは小さくなり
>ます。というわけで、のちほど実装してみます。

実験してみました。対象はとあるメイリングリストの 303通のメイ
ルです。

これまでの実装

  NMZ.i: 377,100
  NMZ.p: 154,919

新しい実装

  NMZ.i: 348,492
  NMZ.p: 154,661

参考: v1.3.0.9 の実装

  NMZ.i: 715,090
  NMZ.p: 474,900

  ...

思ったより効果はなかったけど、単純な手法なので採用したいと思
います。対象とするファイルがもっと多ければ効果が上がるかもし
れません。今日中にきちんとまとめて commit します。

-- Satoru Takabayashi