Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: indexについて
寺西です。
平屋 宏記 wrote:
>
> 検索対象ファイルは、あるサイトをwgetで収集して
> html、txt、pdf、wordを対象として約60000ファイル
> の検索を行っております。
>
> 質問として、
> ・indexの作成に83983秒、約23時間掛かっています。
> 短縮することは可能でしょうか?
可能かどうかは分かりませんが、
http://www.namazu.org/doc/tips.html#indexing
を参考にチューニングすると高速化できるかもしれません。
また、index は毎回作成し直すのではなく、更新すれば更新箇所のみ
の処理になりますので高速化します。
(wget は --timestamping (-N) オプションを指定する必要あり)
> ・たまにindexが壊れる?
> 検索に引っかかるはずの単語が検索結果に反映されない。
検索にひっかかるはずの単語を含むファイルのみで、インデックス
を作成してみてください。おそらくそのインデックスでも検索されない
のではないかと思います。
この場合は index が壊れているのではなく、単語の抽出がうまく
いっていないということになり、別の問題となります。
こちらは、個別に何が起こっているのか調査する必要があります。
> NMZ.logを見ると6時間ほどで完了している。
インデックスの更新をしているのであれば、更新ファイルが少なければ
処理も短くなります。時間が短いだけではおかしいとは言い切れません。
ですが、本来処理すべきファイルを処理せず、何らかの理由で skip した
ために時間が短くなっているとも考えられますので、NMZ.log の
Added Documents の数が予定される数よりも極端に少ない場合は、
mknmz 実行時に表示されるメッセージで何が起こっているのか確認して
ください。(必要なら --debug を付けて、更に情報を表示しましょう。)
> 運用はcronにてwgetし、別ディレクトリでmknmzを実行し、
> indexの場所に移動する運用を行っております。
> (index作成に時間が掛かる為)
http://www.namazu.org/FAQ.html#search-while-index-is-being-updated
にあるようにインデックス更新中に検索することは可能です。(たぶん)
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E