namazu-ml(ring)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
How to get tf value?
- From: Hiroshi KOMATSU <sui_feng@xxxxxxxxxxxxx>
- Date: Wed, 20 Oct 1999 11:51:06 +0900
はじめまして。小松と申します。
namazu を使い始めて、ようやく1年くらいに
なります。すでに生活必需品となっております。
Takabayasiさんをはじめ、開発関係の皆様、あり
がとうございます。
え、さて、今般、namazu 1.3.x のインデックス
情報を流用してインデックス対象の文書データを
自動クラスタリングするシステムの開発を始めまし
た。クラスターへの近接度は、いわゆる tf.idf 値
を使用しています。これまでは、NMZ.i の単語スコア
を文書毎に線形加算したものを単語総数の代わりに
使ってきたのですが(ちょち不安)、いろいろ試して
みようかと思いまして、質問させてください。
文書毎の重みづけなしの単語出現数あるいは、文書
毎のナマの単語総数(重複を除かない)というのは、
どこかのインデックスに格納されているのでしょうか?
または、格納させるオプションがあるのでしょうか?
(逆に言うと、namazu.exe の tf 値はどこから取って
きてるのでしょうか?)
よろしくお願いします。
*-------------------------------------------------------
Hiroshi Komatsu <sui_feng@xxxxxxxxxxxxx>
文書自動クラスタリング「群発namazuプロジェクト」始動〜
Perl版gnmz初号機リリース目前か!?
URL http://home2.highway.ne.jp/sui_feng/kks/cnamazu.html