Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 400G を indexing したいのですがアドバイスおねがいします。



<3BC9D6F8.B1CB97F8@xxxxxxxxxxxxxxxxxx>の記事において
tsuboi@xxxxxxxxxxxxxxxxxxさんは書きました。

>> データサイズが全部で400Gあり、ファイル数が5000万ほどあります。
>> これをindexingをしようと考えていますが
>> perlにメモリが大量に使われ、無理っぽいかなっとおもってます。

  --checkpoint を利用すれば、メモリの使用量についてはある程度はなんと
かなるかもしれません。

  しかし、対象ファイルがそれだけ大きいとなると、例えばインデックスファ
イルの大きさが OS の上限ご越えてしまうような場合も考えられます。

>> あと、時間が大幅にかかってしまいそうなので
>> よりはやくindexingをする方法があればご教授願いたいと思います。
>> 参考になるようPCのスペックを書いておきます。
>> 
>> PentiumIII-1000MHzx2 

  2 CPU であれば、mknmz を 2 つ並列で起動し、対象ディレクトリを適当に
振り分ければそれなりに効率は上がると思います。
  当然インデックスも2つになってしまいますが、namazu/namazu.cgi は複数
のインデックスをサポートしているので、大きな問題にはならないと思います、
多分。
  nmzmerge でインデックスをマージすることも(ファイルサイズの問題さえな
ければ)可能だとは思いますが、(おそらく誰も試したことのない規模なので)
もしかすると思わぬバグに遭遇するかもしれません。
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx
	knok@xxxxxxxxxx / knok@xxxxxxxxxx