Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: About PageRank(TM) (Re: improvements of scoring method)



こんにちわ。
小松と申します。


 TF idf のスコアリングについて、いろいろいじってみているの
ですが、次の文献にちょっと資料がありましたのでご紹介しておき
ます。

CMU Spoken Document Retrieval in Trec-8: 
Analysis of the role of Term Frequency TF, page 331
M. Siegler, R. Jin, A. Hauptmann (Carnegie Mellon University)
http://trec.nist.gov/pubs/trec8/papers/trec8-cmusdr.pdf

 群発なまずのクラスターごとのキーワード・ランキングに、この
文献にある一番性能のいいやつ、というのを実装してみましたとこ
ろ、若干改良されたような気もします。

# gnmz ベータ4 としてリリースしました。
# http://home2.highway.ne.jp/sui_feng/kks/cnamazu.html 
#
# 特定のサーバー上のホームページについて、リンク情報を利用し
# たクラスタリングをするシステムの文献も、上記のページに追加
# しました。(文献15,16)この手を使えば、Google のように全世
# 界をゲットしなくても、意味のあるスコアリングができるのでは
# ないか、という感じです。

 連休中の暇つぶしにどうぞ。


# 操作ミスで、私信で馬場さま宛てに発信してしまいました。
# この場を借りてご無礼おわびいたします。