namazu-ml(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

How to get tf value?



はじめまして。小松と申します。

 namazu を使い始めて、ようやく1年くらいに
なります。すでに生活必需品となっております。
Takabayasiさんをはじめ、開発関係の皆様、あり
がとうございます。

 え、さて、今般、namazu 1.3.x のインデックス
情報を流用してインデックス対象の文書データを
自動クラスタリングするシステムの開発を始めまし
た。クラスターへの近接度は、いわゆる tf.idf 値
を使用しています。これまでは、NMZ.i の単語スコア
を文書毎に線形加算したものを単語総数の代わりに
使ってきたのですが(ちょち不安)、いろいろ試して
みようかと思いまして、質問させてください。

 文書毎の重みづけなしの単語出現数あるいは、文書
毎のナマの単語総数(重複を除かない)というのは、
どこかのインデックスに格納されているのでしょうか?
または、格納させるオプションがあるのでしょうか?
(逆に言うと、namazu.exe の tf 値はどこから取って
きてるのでしょうか?)

 よろしくお願いします。
*-------------------------------------------------------
  Hiroshi Komatsu <sui_feng@xxxxxxxxxxxxx>
  文書自動クラスタリング「群発namazuプロジェクト」始動〜
  Perl版gnmz初号機リリース目前か!?
  URL  http://home2.highway.ne.jp/sui_feng/kks/cnamazu.html