Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: 400G を indexing したいのですがアドバイスおねがいします。
On Mon, 15 Oct 2001 15:27:14 JST
In article <200110150629.PAA12767@xxxxxxxxxxxxx>
[[namazu-users-ja] Re: 400G を indexing したいのですがアドバイスおねがいします。]
knok@xxxxxxxxxxxxx (NOKUBI Takatsugu) wrote:
> >> データサイズが全部で400Gあり、ファイル数が5000万ほどあります。
> >> これをindexingをしようと考えていますが
> >> perlにメモリが大量に使われ、無理っぽいかなっとおもってます。
>
> --checkpoint を利用すれば、メモリの使用量についてはある程度はなんと
> かなるかもしれません。
>
> しかし、対象ファイルがそれだけ大きいとなると、例えばインデックスファ
> イルの大きさが OS の上限ご越えてしまうような場合も考えられます。
5000万ファイルとなると,NMZ.field.summary は 10GB ほどになるんじゃ
ないかと思います。すると,NMZ.field.summary.i が 32bit-base だっ
たら破綻するんじゃないでしょうか。
というより,ファイルリストがオンメモリな時点でアウトのような気が…
(50000000 * 40bytes = 2,000,000,000 = 2GB)
pack('N') は unsigned long なので,64-bit processor なら大丈夫?
15万ファイル(400MB程度)のインデクシングに 500MHz で 10時間ほど掛
かったので,5000万ファイルだと,300倍÷4=1ヶ月?(^_^;;;
―[ Tietew ]――――――――――――――――――――――――――――
Mail: tietew@xxxxxxxxxx / tietew@xxxxxxxx
Web : http://www.tietew.net/ (Tietew Windows Lab.)
PGP fingerprint: 26CB 71BB B595 09C4 0153 81C4 773C 963A D51B 8CAA