Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: NMZ.iのデータ長について
インデックスサイズを小さくする単純な手法として、zlib を利用すること
は以前考えていました。たぶんそれほど難しいことではないと思います。
At Wed, 24 Dec 2003 17:59:47 +0900,
Komai @home wrote:
> メリットとしては、以下のような点が挙げられるでしょうか。
> (実装する人の大変さとか考えていなくてイメージのみの部分もありますが。)
>
> 1)スコアの計算にいろいろバリエーションを持たせられる。
> その場合、多少計算速度が落ちるますが、バリエーションの数を2つ3つと増やしていける。
> イメージとしては、NMZ.field.{いろいろ}をいろいろ簡単に増やせるように現在のNamazuが
> なっているそういう良い伝統をスコア値にも適用したい。
> それだけインデックスのファイルが増えますが。。(これはデメリット)
スコアに対する柔軟性はたしかに欲しいですね。以前馬場さんが PageRank
的な処理を mknmz の外部で行う実装例をかかれていたのですが、mknmz とそ
ういう処理を結びつける仕組みが必要だなあ、とは漠然と思っていました。
きょうび全文検索自体はできて当然の処理であって、そのなかから重用度の
高い情報を抽出できることが、求められてきているのだと思います。
さらにいえば、転置インデックスを保存する形式としての NMZ.* は素性と
してはあまり良くないなあとも感じていて、他にいろいろと存在するフォーマッ
トや DB backend を選択可能にしたほうがよいのでは、とも思っています。
その一歩として NMZ.* を扱う処理を分離するという作業を HEAD でやりか
けていたのですが、ずいぶん前に途中で放置しています... この作業の先には、
完全に分離してインデックス作成処理自体をライブラリ化し、他のアプリケー
ションとの連携をもっと容易にしたいという目論見もありました。
ただまあ、ここまでコードが肥大化してきていると、いまのコードをベース
にするのは厳しいかも、という気もしないでもないです。
--
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx
knok@xxxxxxxxxx / knok@xxxxxxxxxx