Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: NMZ.iのデータ長について
寺西です。
knok@xxxxxxxxxxxxx wrote:
>
> インデックスサイズを小さくする単純な手法として、zlib を利用すること
> は以前考えていました。たぶんそれほど難しいことではないと思います。
zlib を使うのは私も考えていました。
(Namazu とは全く関係ありませんが、自作プログラムでは zlib を使った
圧縮データの読み書きもしていますので、経験もあります。)
確かに簡単に使えます。
BER 圧縮している部分の代わりに zlib で圧縮すれば良いでしょう。
(文書数が多い場合は、全部伸張しないで、途中でやめるなどの工夫は
必要かもしれませんが。)
zlib の圧縮、伸張の時間が問題になることはないかなというのが、ちょっと
心配なところではあります。
それとは別に昔 IRIX + Perl + zlib がうまく動かなかった(過去ログに
ありますが)ので、ちょっと心理的に避けている部分はあります。
> きょうび全文検索自体はできて当然の処理であって、そのなかから重用度の
> 高い情報を抽出できることが、求められてきているのだと思います。
この部分は難しいテーマであり、面白いテーマでもありますね。
> さらにいえば、転置インデックスを保存する形式としての NMZ.* は素性と
> してはあまり良くないなあとも感じていて、他にいろいろと存在するフォーマッ
> トや DB backend を選択可能にしたほうがよいのでは、とも思っています。
はい。良いものがあれば、大幅変更しましょう。
> その一歩として NMZ.* を扱う処理を分離するという作業を HEAD でやりか
> けていたのですが、ずいぶん前に途中で放置しています... この作業の先には、
> 完全に分離してインデックス作成処理自体をライブラリ化し、他のアプリケー
> ションとの連携をもっと容易にしたいという目論見もありました。
>
> ただまあ、ここまでコードが肥大化してきていると、いまのコードをベース
> にするのは厳しいかも、という気もしないでもないです。
いっそ Namazu 2.2 プロジェクトでも始めますか。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E