Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: 400G を indexing したいのですがアドバイスおねがいします。
> 千葉市中央区長洲
> 藤原 誠
問題になっているのは一つの条件だけではなくて、いろいろあるはず
ですが、そのうちの一つということで書きます。
壷井さん> 32bit = 4,294,967,296
壷井さん> 42億書類までだめなのかな?という素人考えです。
書類の数ではなくて、検索語の数です。
こういう数字を挙げても、さほど意味がある訳ではないですが、
例えば僕の手元に次のようなものがあります。
110 k 書類で 1.4M 検索語です。(中身はメールです)
この 1.4M の方が 4G になるのはいつでしょうということで、
300 倍かな。ということは比例で考えれば 30M 書類。
Added Documents: 110,458
Size (bytes): 361,910,039
Total Documents: 110,458
Total Keywords: 1,460,587
Wakati: module_kakasi -ieuc -oeuc -w
Time (sec): 71,859
File/Sec: 1.54
System: netbsd
Perl: 5.006001
Namazu: 2.0.7pre3
From: 壷井 敏史 <tsuboi@xxxxxxxxxxxxxxxxxx>
Subject: 400G を indexing したいのですがアドバイスおねがいします。
Date: Mon, 15 Oct 2001 03:18:32 +0900
Message-ID: <3BC9D6F8.B1CB97F8@xxxxxxxxxxxxxxxxxx>
壷井さん> データサイズが全部で400Gあり、ファイル数が5000万ほどあります。
30M < 50M ということで。
http://www.namazu.org/ml/namazu-ring/msg00961.html
には
Total Files: 878,914 files
Size: 2,167,480,108 bytes
Total Keywords: 7,339,687 words
System: freebsd
Time: 79874 sec.
というのがありますが、これが今知られている最大のものだと
思っています。
File size keywords keywords/size
---- ---- -------- ------------
870k 2.1G 7.4M 283 すぎうらさん
110k 360M 1.4M 257 藤原
50M 400G 壷井さん
分割して少しやって見れば分ると思うのですが、やる前に
企画書を書く必要があるというようなことなのでしょうか。
---
(藤原)
http://www.ki.nu/software/namazu/tutorial/