Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: wget 以外の WEB 収集について
- From: Hajime BABA <baba@xxxxxxxxxxxxxxxxxxxxxx>
- Date: Sat, 24 Mar 2001 03:58:57 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 01631
- References: <3ABA5500.7861C647@os.xaxon.ne.jp>
From: 壷井 敏史 <tsuboi@xxxxxxxxxxxxxx>
Subject: [namazu-users-ja] wget 以外の WEB 収集について
Date: Fri, 23 Mar 2001 04:39:45 +0900
> さて、NAMAZUの公式ページではwgetでWEBを収集するということを
> 書いていますが、ユーザーの皆様の中にWGET以外のソフトを使われている方は
> いらっしゃるのでしょうか?
> いらしたらどのソフトがお勧めとか教えていただけないでしょうか?
> 500万URLを目標に集めようと思っています。
> やはりiron33がいいのかな?っともおもったりもしています。
んー、ODINの半分ですか...
あくまでも私見なのですが、量が多いので、wgetか iron33 か MOMspider
かその他商用製品か、という問題ではそもそもないんじゃないでしょうか。
専門家でも分散協調収集を考える時代ですから、潤沢な回線速度とマシン
スペックという当然備えられているべき条件に加えて、完全に動作するロ
ボットを自作して収集アルゴリズムを注意深くチューニングできるだけの
プログラミング能力(だけではありませんが)という条件を持たない人は、
そもそも500万ページなんて大それたことを考えないほうがいいのではな
いかとおもいます。目標設定を少なくとも一桁(あるいは1.5桁)は下げる
方が現実的なのではないでしょうか。
逆に、どうしても500万ページ必要なのなら、wget がどうこうなんてこと
を考えるよりも、たとえば山名早人先生たちの研究グループの活動など、
もっと他に調べることはいくらでもあるんじゃないかとおもいます。
--
馬場 肇 ( Hajime BABA ) E-mail: baba@xxxxxxxxxxxxxxxxxxxxxx
京都大学理学部宇宙物理学教室 博士後期課程
--