Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: About PageRank(TM) (Re: improvements of scoring method)
こんにちわ。
小松と申します。
TF idf のスコアリングについて、いろいろいじってみているの
ですが、次の文献にちょっと資料がありましたのでご紹介しておき
ます。
CMU Spoken Document Retrieval in Trec-8:
Analysis of the role of Term Frequency TF, page 331
M. Siegler, R. Jin, A. Hauptmann (Carnegie Mellon University)
http://trec.nist.gov/pubs/trec8/papers/trec8-cmusdr.pdf
群発なまずのクラスターごとのキーワード・ランキングに、この
文献にある一番性能のいいやつ、というのを実装してみましたとこ
ろ、若干改良されたような気もします。
# gnmz ベータ4 としてリリースしました。
# http://home2.highway.ne.jp/sui_feng/kks/cnamazu.html
#
# 特定のサーバー上のホームページについて、リンク情報を利用し
# たクラスタリングをするシステムの文献も、上記のページに追加
# しました。(文献15,16)この手を使えば、Google のように全世
# 界をゲットしなくても、意味のあるスコアリングができるのでは
# ないか、という感じです。
連休中の暇つぶしにどうぞ。
# 操作ミスで、私信で馬場さま宛てに発信してしまいました。
# この場を借りてご無礼おわびいたします。