Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

巨大インデックスへの挑戦



 Namazu初心者で、昨日メーリングリストに登録し、今日はじめて投稿します。
よろしくお願いします。

 さて、http://www.namazu.org/FAQ.html に、以下の文章

> どの程度の規模のインデックスが作れますか?
> 報告のあったもののなかでは 878,914 ファイル、合計 2,167,480,108 bytes の
> 文書を対象にしたものが最大です (現在の世界記録保持者はすぎうらし ろうさん
> です :-)。
> これより規模の大きいインデックスを作成された方はぜひメイリン グリストに
> ご連絡ください。

があるのは、みなさんご存知かと思いますが、これに挑戦しています。
ところが、非常に多くのメモリを要求するらしく極度のスワップが発生し、ぜんぜん
前に進んでくれません。

> c:\> c:\namazu\bin\mknmz.bat ...(略)
> 検索対象のファイルを調べています...

のメッセージのまま24時間以上経過しています。
私が見る感じでは、perl.exe がディレクトリを見に行ったままのような気がしま
す。
これより小さいインデックスを作成するときでも、まず perl.exe が大量にメモリを
消費し、そのあと一気に開放して Namazu のインデックスを作成しているメッセージ
が
出てきます。


メモリの使用を抑えインデックスを作成する方法はないものでしょうか?
それとも物理的にメモリを足すしかない?


実業務は、これを7分割してインデックスを作成したので問題はありませんが、
これが解決すると、インデックス作成がもっと早くなるように思います。


こちらの環境は以下の通りです。

CPU    : Pentium III 933MHz
Memory : 256MB
OS     : Microsoft Windows 2000 Server SP1
Namazu : 2.0.5 (nmz205.exe)
         mknmz には、--chechpoint のオプションをつけています。
         mknmzrc は、$ON_MEMORY_MAX = 1000000 にしています。
perl   : 5.6.0 (ActivePerl-5.6.0.620.exe)
KAKASI : 2.3.2 (kakasi-2.3.2.zip)
SOURCE : HTMLファイル
         サイズ:            2.53 GB (2,720,458,010 バイト)
         ディスク上のサイズ: 4.14 GB (4,456,009,728 バイト)
         内容:              ファイル数: 1,747,777、フォルダ数: 3,959

ページングファイルは、最初、256MB*3=768MB で mknmz したところ Out of memory!
と出てしまったので、256MB*5=1280MBに"とりあえず"してみました。
すると Out of memory! はまだ出ていないものの、タスクマネージャのメモリの使用
量
が、1150000K!!! あたりをうろついています。デフラグをかけているようで、まとも
な
状態ではありません。


ところで、

C:\>perl -version
This is perl, v5.6.0 built for MSWin32-x86-multi-thread

なのに、

C:\>mknmz -C
読み込んだ設定ファイル: C:/namazu/etc/namazu/mknmzrc
システム: MSWin32
Namazu: 2.0.5
Perl: 5.006

バージョンが違うのはなぜ?


Takashi Nakamura
nakamura@xxxxxxxxxxxxxxxxx