namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: robots.txt



國頭です。

▲時刻 Tue, 12 Jan 1999 13:24:14 +0900 に
▲KIBE TAIKIさんの出した
▲Message-ID <199901120426.NAA14480@xxxxxxxxxxxxxxxxxxxxx>の
▲[namazu:01884] Re: robots.txt という話題では...

KIBE> つまり、あまりメモリを消費しないように、@FList に robots.txt を直接考慮させ

僕も最初 @FList のところで処理した方が速くなると思いました。
メモリのことは全く考えていませんでしたが。;)
ただ、気になることがありました。

KIBE>  unless ($RobotExcludeOpt && $name =~ m/$ROBOTS_EXCLUDE_URLS/i) { <---追加

$name と そのままの ROBOTS_EXCLUDE_URLS で match しますか?
$name には URL ではなくて replace 前の directory path が入るような気が
したため、毎回 dirctory path -> url に直してmatch させるのが面倒だった
ので僕は @Flist のところで処理しませんでした。
#単にソースを読むのが面倒になったから......

もう少し別の方法としては従来の DENY_FILE を DENY_FILE_TYPE という名前
にし、DENY_FILE を汎用的にしてはどうでしょうか?

    push(@FList, $name) if 
        ( (! /^(($DENY_FILE)(\.gz|\.Z)?)$/i) &&
         /^(($TARGET_FILE)(\.gz|\.Z|\?.*)?)$/i && -f $_ && -r $_);

を

    push(@FList, $name) if 
        ( (! /^(($DENY_FILE_TYPE)(\.gz|\.Z)?)$/i) &&
         (! /^($DENY_FILE)/i) &&
         /^(($TARGET_FILE)(\.gz|\.Z|\?.*)?)$/i && -f $_ && -r $_);

のようにするのです。
(DENY_FILE が空の時とそうでないときで場合わけをするか default \t でも
入れておく必要があるでしょう。)

ところで、@Flist の中身が膨れることによってメモリ消費が増えるのでしょうか?



それからパターンマッチに(初期値から変更しない)変数を多用していますが、
修飾子としての o option をつけると速くなったりしませんかねぇ? 

------------------------------------------------------------
\\  國頭 吾郎 ( Goro Kunito )  [JF7LJB/1]  | I Love \
 \\  東京大学工学系研究科電子情報工学専攻          |  `WISH' \
  \\           羽鳥・相澤研究室 博士課程2年       |    and   \
   \\  Tel 03-3812-2111 or 03-3814-4251 (ext. 6761)|   `JWAVE' \  
    \\  E-mail : kunito@xxxxxxxxxxxxxxxxxxx        |  very much.\
     ============================================================