namazu-dev(ring)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: How to get tf value?
- From: Rei FURUKAWA <furukawa@xxxxxxxxxxxx>
- Date: Sun, 24 Oct 1999 00:37:17 +0900
- References: <199910200925.SAA00633@ring.etl.go.jp> <199910202255.HAA15671@ring.etl.go.jp> <199910210134.KAA22194@ring.etl.go.jp>
古川です。
From: Hiroshi KOMATSU <sui_feng@xxxxxxxxxxxxx>
Subject: [namazu-dev 674] Re: How to get tf value?
Date: Thu, 21 Oct 1999 10:34:23 +0900
Message-ID: <199910210134.KAA22194@xxxxxxxxxxxxxx>
sui_feng> # 2.0 のインデックス構造を勉強しなくちゃ
最新のソースを入手なさったならば、pl というディレクトリに、nmzidx.pl
というものがあります。ここでは、2.0 のインデックスの読み書き用の、
アクセス関数群を用意しています。
また、src ディレクトリには、これを使った、
kwnmz 文書から、キーワードを tf/idf 的に抜き出して、
NMZ.field.keywords に書き出します
gcnmz 欠番を詰めてインデックスを作り直します。
従って、これを実行した後ならば、「NMZ.t のサイズ / 4」
で全文書数は求められます。
といったものがあります。
# 書きかけですが、ドキュメントは手もとにあります。
基本的には、
while (defined($handle->read(\$word, \%list))){
...
}
のような感じで、[単語]、[文書番号 -> スコア]のリストを読み出すことが
できます。
また、どんな関数を用意するか、も検討中です。
小松さんに必要な関数 (のうち、汎用的に使えそうなもの) は、用意したい
と思っておりますので、「どんな関数が必要か」を是非教えて下さい。
--
Rei FURUKAWA
furukawa@xxxxxxxxxxxx