Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: mknmz のパフォーマンスについて
- From: Hideyuki Nishiyama <hnishi@xxxxxxxxxxxxxxxxxx>
- Date: Mon, 11 Jun 2001 09:16:22 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 01760
- References: <200106080454.NAA06965@webserver>
はじめまして、西山@国土環境と申します。
先月、このMLに加入させていただき、同様なことをしようとして、
このMLで色々質問していました。
こんなときにしか、貢献できませんので、私の知っている範囲で。
Chiyoko> 西森と申します。
Chiyoko> 初めて質問させていただきます。
Chiyoko>
Chiyoko> PentiumIII800Mhz、メモリ256MBのマシンで
Chiyoko> OSがTurboLinux Server6.1、Namazuは2.0.4を使っています。
Chiyoko>
Chiyoko> 現在、2930個のファイルをインデックス化しようとしています。
Chiyoko> 内訳は、HTML、PDF、Excelファイルです。
Chiyoko> サイズ的には、数十KB〜1MBほどのファイルです。
私のところでも、同様のことをしました。私の場合、NTサーバの
共有フォルダー上ですが、今回の場合ほとんど同じだとおもいます。
私の環境では、
CPU: P3-850 x2
MEM: 1024GB
OS: RedHatLinux7.1J+namazu-2.0.5
検索対象:
ファイル数: 2537
ディレクトリ数: 302
検索対象数: 1499(mknmzでインデックス対象になるもの)
検索対象容量: 837MB
検索対象ファイル: PDFファイル、Excelファイル、Wordファイル、
テキスト、HTMLファイル、一太郎ファイル
でした。これで、文書フィルタを変更して、色々、テストしました。
1)doccat(データ変換研究所)
2)xlHtmlとwvWareを利用した場合
3)2に、さいのさんに教えていただいたパッチを適用
(http://www.ki.nu/software/namazu/tutorial/patches.html)
その結果、インデックス作成時間にかなりの差がでることがわかりました。
1) 714秒
2) 5472秒
3) 894秒
これは、xlHtmlやwvWareが文書中の画像や表を原本に近づけるようhtml化して
時間が取られているようです。本来、全文検索では、表部分や画像部分の処理
はなくてもいいのですが、この処理でかなり処理時間がかかっているようです。
このように、全文検索サーバのインデックス作成には、主に、
1)ハードウェアスペック
2)検索対象ファイルの種類
3)文書フィルターソフト(namazu付属の.plファイルではない)の変換性能
とあるので、藤原さんが書いているように、まずは、2.0.5に上げてから、
どこで時間がかかっているか調べた方がよろしいかと思います。
大した情報ではないですが、ご参考までに。
------------------------------------------------------------
国土環境株式会社 E-mail:hideyuki@xxxxxxxxxxxxxxxxx
情報システムグループ WWW :http://www.metocean.co.jp/
西山 英之 TEL :045-593-7616
FAX :045-593-7628