Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
 Re: mknmz のパフォーマンスについて
- From: Hideyuki Nishiyama <hnishi@xxxxxxxxxxxxxxxxxx>
 
- Date: Mon, 11 Jun 2001 09:16:22 +0900
 
- X-ml-name: namazu-users-ja
 
- X-mail-count: 01760
 
- References: <200106080454.NAA06965@webserver>
 
  はじめまして、西山@国土環境と申します。
 先月、このMLに加入させていただき、同様なことをしようとして、
このMLで色々質問していました。
 こんなときにしか、貢献できませんので、私の知っている範囲で。
Chiyoko> 西森と申します。
Chiyoko> 初めて質問させていただきます。
Chiyoko> 
Chiyoko> PentiumIII800Mhz、メモリ256MBのマシンで
Chiyoko> OSがTurboLinux Server6.1、Namazuは2.0.4を使っています。
Chiyoko> 
Chiyoko> 現在、2930個のファイルをインデックス化しようとしています。
Chiyoko> 内訳は、HTML、PDF、Excelファイルです。
Chiyoko> サイズ的には、数十KB〜1MBほどのファイルです。
 私のところでも、同様のことをしました。私の場合、NTサーバの
共有フォルダー上ですが、今回の場合ほとんど同じだとおもいます。
 私の環境では、
CPU:	P3-850 x2
MEM:	1024GB
OS:	RedHatLinux7.1J+namazu-2.0.5
検索対象:
ファイル数:	2537
ディレクトリ数:	302
検索対象数:	1499(mknmzでインデックス対象になるもの)
検索対象容量:	837MB
検索対象ファイル:	PDFファイル、Excelファイル、Wordファイル、
			テキスト、HTMLファイル、一太郎ファイル
でした。これで、文書フィルタを変更して、色々、テストしました。
1)doccat(データ変換研究所)
2)xlHtmlとwvWareを利用した場合
3)2に、さいのさんに教えていただいたパッチを適用
(http://www.ki.nu/software/namazu/tutorial/patches.html)
その結果、インデックス作成時間にかなりの差がでることがわかりました。
1)	714秒
2)	5472秒
3)	894秒
これは、xlHtmlやwvWareが文書中の画像や表を原本に近づけるようhtml化して
時間が取られているようです。本来、全文検索では、表部分や画像部分の処理
はなくてもいいのですが、この処理でかなり処理時間がかかっているようです。
 このように、全文検索サーバのインデックス作成には、主に、
1)ハードウェアスペック
2)検索対象ファイルの種類
3)文書フィルターソフト(namazu付属の.plファイルではない)の変換性能
とあるので、藤原さんが書いているように、まずは、2.0.5に上げてから、
どこで時間がかかっているか調べた方がよろしいかと思います。
 大した情報ではないですが、ご参考までに。
------------------------------------------------------------
国土環境株式会社         E-mail:hideyuki@xxxxxxxxxxxxxxxxx
情報システムグループ     WWW   :http://www.metocean.co.jp/
西山 英之                TEL   :045-593-7616
                         FAX   :045-593-7628