Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: NewsRank System?(Re: prnmz scoring)



 From: OKANO Osamu <osamu2001@xxxxxxxxxxxx>
 Subject: [namazu-devel-ja] NewsRank System?(Re: prnmz scoring)
 Date: Thu, 11 Oct 2001 00:49:19 +0900

 > >ので、mknmz ができる環境なら、全く問題なく prnmz も動かせると
 > >思います。

そうです。そうなるように作ってあります。そうでないと実験できんし、
なによりも、そうでないシステムには(手が出ないという意味で)興味を持
ちにくいですよね。


 > 実は今まで実行したことありませんでした。
 > ひとつ思うところがあり実行してみました。
 > cygwin用のOctaveを使用すると意外にさっくり動きました。

ほほう。なるほど。


 > 結果ですが・・・いまいちでした。
 > 
 > 個人ニュースサイトの数がもっと増やしたり
 > リンクのたどり方をもうちょっと頭よくする必要がありそうです。

prnmz 固有の話では、スコアリングをもっともっと賢くする必要がありま
す。自らいじってチューニングしてもいいんですがたぶん効率が悪いんで、
なんかそれらしい研究を知っている人がいたらゼヒ教えてください。

あと、PageRank とは離れるけど、ニュースというネタに絞るのであれば、
freshness は悪くないんじゃないかな。マイナーですが、lnnmz も多少
チューニングする方がいいかも。


まあそれ以前に、ご承知のように、ランダムウォークの効果を使っている
わけですから、大数の法則がちゃんと働かないような少数の記事では 
PageRank なんか計算したってあまり意味がないとおもいます。そりゃま
あ、機械的な意味でリンクが存在しさえすれば、なんかしらんけど計算は
できて結果が出ますが、それが(人間が利用する上で)本質的な意味を持っ
たものであるかどうかには疑問が残ります。

PageRank なら、6-7回はリンクをたどって、ほんで満足して(あるいは飽
きて)どっか別のところに飛んでいくモデルですから、2-3回で行き止まり
になるようではたぶんダメなわけです。つまり、普通の人が見てたどって
みたいというリンクだけをたどって平均的に6-7 回くらいたどれるのか、
ということです。少なくともそれくらいの規模のページは集めないといけ
ないんじゃないかなとおもいます。

逆に、人間は6-7回もリンクをたどれるほど我慢強くなくてもっと飽きっ
ぽいんだ、というモデルがあるなら、0.15 というパラメータをいじって
みれば、また違う結果になってそれはそれでおもしろいのかもしれません。



 > もっと洗練させるとしたら・・・
 > 記事のサマリとその記事にリンクしているページのリンクや
 > その記事へのリンクなどが簡単にたどれる用になれば便利かもしません。

(なんらかの形で)汎用に作れるならそれにこしたことはないですが、まあ
そのへんは ad hoc に作り込めばそれでいいんではないかなとおもいます。
--
馬場  肇 ( Hajime BABA )                  E-mail: hajime.baba@xxxxxxxxx
国立天文台 天文学データ解析計算センター
--