namazu-ml(ring)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: mknmz -e オプション
"imagine/Shimizu Nariaki" <imagine@xxxxxxxxxxxxxxxxxxxxxxxxxx> wrote:
>少し気になった部分が見つかりました。 htmlで
すみません。僕が使っていない機能はつい動作確認を怠ってしまい
ます。
>/usr/local/apache/share/htdocs/robots.txt does not exists at
>/usr/local/share/namazu/filter/html.pl line 299.
>
>と言うようなメッセージが最初に表示されます。
これは気にしなくていいです。 mknmzrc の $conf::ROBOTS_TXT で
設定された場所に robots.txt が存在しないと出力されます。
><meta name="robots" content="noindex"> を記述しているhtmlも
>インデックスの作成が行われてしまっています。
とりあえず
<http://www.namazu.org/snapshot/namazu-2000-02-22.tar.gz>
を使えば解決するはずです。
が、 /robots.txt はきちんと処理できるか試していません。
.htaccess を扱う --htaccess もできれば廃止したいところです。
mknmz で処理するのはちょっとやりすぎな気がします。
対象ファイルを限定するなら find を使えばいいです。例:
% find /foo -name '*.html' | grep -v /secret/ > target
% mknmz -F target
あるいは:
% find /foo -name '*.html' | grep -v /secret/ | mknmz -F-
# 裏技っぽいですが -F- を指定すると対象ファイルのリストを標
# 準入力から読み込みます。 perl の open の仕様です。
それから、2.0 の mknmz なら
% mknmz /foo /bar /baz
と対象ディレクトリを複数同時に指定することが可能です。
強い反対がなければ --htaccess および /robots.txt の処理は廃
止したいと思います。まさに creeping featurism の状態なので。
# 本当は <meta name="robots" content="noindex"> についても廃
# 止した方がすっきりするのだけど、これは残した方がいいかな。
# find で除外するのは難しいので。あ、
# % find /foo -type f | xargs grep -lv '<meta ...>' | mknmz -F-
# とする手があるか。ちょっとややこしいけど。
-- Satoru Takabayashi