Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: wget 以外の WEB 収集について



私は Wget でした。量を集めるだけなら十分ですが、
質的な面では Wget のような再帰収集は最悪です。
また、20 万ページ程度でも CPU 460MHz , Memory 256M でスワップアウトで
3日かかりましたし、 512Mにメモリを増設しても2日はかかりました。
加えて検索結果にそれだけの価値があるかどうかも怪しいものです。
きっと500万あっても時間の無駄だと思います。

私の偏見かも知れませんが、 現在の Namazu はメールや特定の話題のデータベースのみに
有効であり、Web上を無差別に収集した場合には向きません。
逆に方向性の似通ったデータならいい結果出すように思われます。
Goo と Google を比べてみれば分かりますが、質的な面から考えるとPageRankは
"必須"だと思います。NamazuにPageRankを導入したというスレッドがあったのでそちらを
導入してから考えてみては如何でしょうか?

そういうわけで、リンク人気を意識した(PageRank)収集をすべきだと思います。
そういうスクリプトをRubyで開発中なのですが現在は忙しくて手をつけていません。
ただ、比較的簡単に実装できると思うので挑戦してみても良いと思います。

--
http://tat6.ice.ous.ac.jp/akita/cgi-bin/mynamazu5.cgi (更新されてません)
岡山理科大学OB 秋田一輝

Webページはゴミばかり