Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: robots.txtをインデックスから除外するには?
津村です.
Hideyuki SHIRAIさんが2002.9.17 10:13に書きました:
>こんにちは白井です。
白井さん,こんにちは.
返信ありがとうございます.
以下,現状の報告です.
>From: Takuya Tsumura <tsumura@xxxxxxxxxxxxxxxxxx> さん曰く
>Subject: [namazu-users-ja] robots.txtをインデックスから除外するには?
>Message-ID: <20020916113914.1305@xxxxxxxxxxxxxxxxxxxxxxxxxxx>
>Date: Mon, 16 Sep 2002 20:39:13 +0900
>
<<中略>>
>あれ?? と思い試してみたのですが、$DENY_FILE と
>-F(--target-list) は両立します。
>
>× $DENY_FILE = ".*\\robots.txt|.*\\.pdf";
>○ $DENY_FILE = "robots\\.txt|.*\\.pdf";
上記○をmknmzrcに設定し,インデックスを削除し新たに作り直しました.
インデックス作成時のログを見ると,以下のようになっており,
robots.txtがインデックスに含まれてしまっています.
----------
強制終了
検索対象のファイルを調べています...
541個のファイルがインデックス作成の対象として見つかりました
<<中略>>
415/493 - /home/www/htdocs/robots.txt [text/plain]
インデックスを書き出しています...
[基本]
日付: Tue Sep 17 15:13:02 2002
追加された文書の数: 489
サイズ (bytes): 3,134,837
合計の文書数: 489
追加キーワード数: 29,596
合計キーワード数: 29,596
わかち書き: module_kakasi -ieuc -oeuc -w
経過時間 (秒): 166
ファイル/秒: 2.95
システム: solaris
Perl: 5.00503
Namazu: 2.0.12
----------
検索の結果からも,robots.txtがインデックスに含まれていることを確認しました.
>かな。しかし、target-list を使うなら、最初からそのファイルから
>robots.txt を削除しておいた方が良いのでは?
当方のtarget-listファイルは以下の通りです.
----------
/home/www/htdocs/
/home/users/dpt1/public_html/
/home/users/dpt2/public_html/
/home/users/dpt3/public_html/
/home/users/dpt4/public_html/
/home/users/dpt5/public_html/
/home/users/dpt6/public_html/
/home/users/dpt7/public_html/
/home/users/dpt8/public_html/
/home/users/dpt9/public_html/
/home/users/uhed/public_html/
/home/users/mri1/public_html/
/home/users/mri2/public_html/
/home/users/mri3/public_html/
/home/users/tecd/public_html/
/home/users/hebp/public_html/
----------
次善策として,ドキュメントルート(/home/www/htdocs/)以下に含まれる
ファイル/ディレクトリのうち,/home/www/htdocs/robots.txt以外を
target-listファイルに書き込めば良いのでしょうが,target-listファイルの
メンテナンスのことを考えると,これはあまりしたくありません.
(例:ドキュメントルートに含まれるファイル/ディレクトリが度々増減する)
関連が有るかどうか分かりませんが,インデックスを作るスクリプトも
以下にのせておきます.
-----------
#!/bin/csh
setenv LANG ja
cd /usr/local/var/namazu/index/htdocs
/usr/local/bin/mknmz --robots --target-list=<次行と継続してます>
/home/www/cgi-data/jwri-info/index_list.txt --deny='robots\\.txt|.*\\.pdf'
cd /usr/local/var/namazu/index/local
/usr/local/bin/mknmz --robots /home/www/local
cd /usr/local/var/namazu/index
/home/www/bin/modify-hdr
-----------
もしかすると,mknmzを実行する際に/usr/local/etc/namazu/mknmzrcを
読みにいけてないだけかもしれません...
引き続き,情報をお待ちしております.
よろしくお願い申し上げます.
-----------------------------------------------------
津村卓也(TSUMURA, Takuya)
大阪大学 接合科学研究所 助手
エネルギープロセス学分野(DEPS)
http://www.jwri.osaka-u.ac.jp/
---------------------------------------------------
Mail: tsumura@xxxxxxxxxxxxxxxxxx
: keme3@xxxxxxx, keme3@xxxxxxxxxxxxxx
URL : http://homepage.mac.com/keme3/
Tel : 06-6879-8668
Fax : 06-6879-8689
-----------------------------------------------------