Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: NewsRank System?(Re: prnmz scoring)
岡埜
簡単に説明すると
「リンクページ」
SMALLNEWS
http://www.smallnews.net/news.html
「被リンクページ」
「アフガン攻撃は来夏まで続く」英国防省
http://www.asahi.com/international/update/1012/007.html
とすると
最も多くの「リンクページ」からリンクされてる「被リンクページ」
が価値があるというアイデアです
リンクページの数<<被リンクページの数
という仮定です
単純にリンク数をカウントするものでも有用かと思いましたが
すでに実装されている物の再利用のほうが楽というだけの理由で
使いました。
wget->mknmz->prnmz
単にこれを実行しただけです
>あと、PageRank とは離れるけど、ニュースというネタに絞るのであれば、
>freshness は悪くないんじゃないかな。マイナーですが、lnnmz も多少
>チューニングする方がいいかも。
新しい物を扱う前提なのでfreshnessはあまり関係ないかもしれません。
lnnmzのほうですが、リンクをそれなりに選択する必要は当然あります。
とりあえず相対リンクを排除すると結果が少しましになりました。
ページの全体数が少ないと相対リンクがまるで
自画自賛をしているように働いてしまうようです。
あと「リンクページ」はもともと自分でリストアップ
したものなのでページの価値が高いはずなのに
インデックス上ではどこからもリンクされていない価値の低いページ
とみなされてしまうのもまずいです。
仮想のHUBページを作ってインデックス上のすべてのページから
そのHUBページにリンクして、そのHUBページから「リンクページ」に
リンクを張ることで
「リンクページ」->「被リンクページ」->「リンクページ」->「被リンクページ」
という個人ニュースサイトを読む人間のパターンをうまく表せそうです。