Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: NMZ.iのデータ長について
寺西です。
# 補足です。
Tadamasa Teranishi wrote:
>
> NMZ.i の処理で必要なのは BERサイズではなく、[単語xを含む文書の総数]
> なのですから、NMZ.ii から算出した BER サイズから
> [単語xを含む文書の総数] を求めるのではなく、NMZ.i に
> [単語xを含む文書の総数] を記録しておくというフォーマットの方が
> 断然使いやすいです。
> このためにインデックスが小さくならない(現状と同じ)としても、
> NMZ.i に BERサイズ の代わりに [単語xを含む文書の総数] を記録する
> というのが、フォーマットとしては良いでしょう。
Namazu 2.0.12 までは
・ドキュメントは [単語xを含む文書の総数*2]
・mknmz の実装は BERサイズ で、インデックスは BERサイズ で作成
される。
・namazu の実装は BERサイズ で、一部 [単語xを含む文書の総数*2] と
して扱っている部分がある。
・その他のユーティリティの実装は BERサイズ として扱っている。
という状況でした。
このため、きちんと統一する必要がありました。
[単語xを含む文書の総数*2]で統一する方が、NMZ.i に冗長なデータを
含まず、また取扱が楽(※)になるのですが、インデックスは 2.0系は
互換性を保つという制限がありますので、
最新版では
・ドキュメントを BERサイズ に修正。
・namazu の一部 [単語xを含む文書の総数*2] として扱っている部分を
BERサイズ として扱うように修正。
ということを行い BERサイズ に統一しました。
2.1 系は [単語xを含む文書の総数*2] に統一して、プログラムを
すっきり簡単にした方が良いかもしれません。
ただ、似て非なるものは誤解の元ですから、どうせならもっといろいろな
部分に手を加えて、全く別のフォーマットにしたいところです。
※ これは namazu 側から見た話で、mknmz 側から見た場合ではありません。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E