Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: robots.txtをインデックスから除外するには?



津村です.

Hideyuki SHIRAIさんが2002.9.17 10:13に書きました:
>こんにちは白井です。
白井さん,こんにちは.
返信ありがとうございます.
以下,現状の報告です.

>From: Takuya Tsumura <tsumura@xxxxxxxxxxxxxxxxxx> さん曰く
>Subject: [namazu-users-ja] robots.txtをインデックスから除外するには?
>Message-ID: <20020916113914.1305@xxxxxxxxxxxxxxxxxxxxxxxxxxx>
>Date: Mon, 16 Sep 2002 20:39:13 +0900
>
    <<中略>>
>あれ?? と思い試してみたのですが、$DENY_FILE と
>-F(--target-list) は両立します。
>
>× $DENY_FILE = ".*\\robots.txt|.*\\.pdf";
>○ $DENY_FILE = "robots\\.txt|.*\\.pdf";

上記○をmknmzrcに設定し,インデックスを削除し新たに作り直しました.
インデックス作成時のログを見ると,以下のようになっており,
robots.txtがインデックスに含まれてしまっています.

----------
強制終了
検索対象のファイルを調べています...
541個のファイルがインデックス作成の対象として見つかりました
    <<中略>>
415/493 - /home/www/htdocs/robots.txt [text/plain]
インデックスを書き出しています...
[基本]
日付:                Tue Sep 17 15:13:02 2002
追加された文書の数:  489
サイズ (bytes):      3,134,837
合計の文書数:        489
追加キーワード数:    29,596
合計キーワード数:    29,596
わかち書き:          module_kakasi -ieuc -oeuc -w
経過時間 (秒):       166
ファイル/秒:         2.95
システム:            solaris
Perl:                5.00503
Namazu:              2.0.12
----------

検索の結果からも,robots.txtがインデックスに含まれていることを確認しました.


>かな。しかし、target-list を使うなら、最初からそのファイルから
>robots.txt を削除しておいた方が良いのでは?
当方のtarget-listファイルは以下の通りです.
----------
/home/www/htdocs/
/home/users/dpt1/public_html/
/home/users/dpt2/public_html/
/home/users/dpt3/public_html/
/home/users/dpt4/public_html/
/home/users/dpt5/public_html/
/home/users/dpt6/public_html/
/home/users/dpt7/public_html/
/home/users/dpt8/public_html/
/home/users/dpt9/public_html/
/home/users/uhed/public_html/
/home/users/mri1/public_html/
/home/users/mri2/public_html/
/home/users/mri3/public_html/
/home/users/tecd/public_html/
/home/users/hebp/public_html/
----------

次善策として,ドキュメントルート(/home/www/htdocs/)以下に含まれる
ファイル/ディレクトリのうち,/home/www/htdocs/robots.txt以外を
target-listファイルに書き込めば良いのでしょうが,target-listファイルの
メンテナンスのことを考えると,これはあまりしたくありません.
(例:ドキュメントルートに含まれるファイル/ディレクトリが度々増減する)


関連が有るかどうか分かりませんが,インデックスを作るスクリプトも
以下にのせておきます.
-----------
#!/bin/csh
setenv LANG ja

cd /usr/local/var/namazu/index/htdocs
/usr/local/bin/mknmz --robots --target-list=<次行と継続してます>
/home/www/cgi-data/jwri-info/index_list.txt --deny='robots\\.txt|.*\\.pdf'
cd /usr/local/var/namazu/index/local
/usr/local/bin/mknmz --robots /home/www/local
cd /usr/local/var/namazu/index 
/home/www/bin/modify-hdr
-----------
もしかすると,mknmzを実行する際に/usr/local/etc/namazu/mknmzrcを
読みにいけてないだけかもしれません...


引き続き,情報をお待ちしております.
よろしくお願い申し上げます.

-----------------------------------------------------
 津村卓也(TSUMURA, Takuya)
   大阪大学 接合科学研究所 助手
   エネルギープロセス学分野(DEPS)
   http://www.jwri.osaka-u.ac.jp/
 ---------------------------------------------------
  Mail: tsumura@xxxxxxxxxxxxxxxxxx
      : keme3@xxxxxxx, keme3@xxxxxxxxxxxxxx
  URL : http://homepage.mac.com/keme3/
  Tel : 06-6879-8668
  Fax : 06-6879-8689
-----------------------------------------------------