Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: indexについて



寺西です。

平屋 宏記 wrote:
> 
> 検索対象ファイルは、あるサイトをwgetで収集して
> html、txt、pdf、wordを対象として約60000ファイル
> の検索を行っております。
> 
> 質問として、
> ・indexの作成に83983秒、約23時間掛かっています。
>         短縮することは可能でしょうか?

可能かどうかは分かりませんが、
http://www.namazu.org/doc/tips.html#indexing
を参考にチューニングすると高速化できるかもしれません。

また、index は毎回作成し直すのではなく、更新すれば更新箇所のみ
の処理になりますので高速化します。
(wget は --timestamping (-N) オプションを指定する必要あり)

> ・たまにindexが壊れる?
>         検索に引っかかるはずの単語が検索結果に反映されない。

検索にひっかかるはずの単語を含むファイルのみで、インデックス
を作成してみてください。おそらくそのインデックスでも検索されない
のではないかと思います。

この場合は index が壊れているのではなく、単語の抽出がうまく
いっていないということになり、別の問題となります。
こちらは、個別に何が起こっているのか調査する必要があります。

>         NMZ.logを見ると6時間ほどで完了している。

インデックスの更新をしているのであれば、更新ファイルが少なければ
処理も短くなります。時間が短いだけではおかしいとは言い切れません。

ですが、本来処理すべきファイルを処理せず、何らかの理由で skip した
ために時間が短くなっているとも考えられますので、NMZ.log の
Added Documents の数が予定される数よりも極端に少ない場合は、
mknmz 実行時に表示されるメッセージで何が起こっているのか確認して
ください。(必要なら --debug を付けて、更に情報を表示しましょう。)

> 運用はcronにてwgetし、別ディレクトリでmknmzを実行し、
> indexの場所に移動する運用を行っております。
> (index作成に時間が掛かる為)

http://www.namazu.org/FAQ.html#search-while-index-is-being-updated

にあるようにインデックス更新中に検索することは可能です。(たぶん)
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E