namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

wget %7E problem /Re: Namazu v1.1.2.3 released! (Re: tknamazu 1.06 release)



At 1:17 PM +0900 5/22/98, Kaz SHiMZ wrote:
> 清水@住友林業です。
>
> Takanori Hayashi <tzhaya@xxxxxxxxxxx> さんは
> Fri, 22 May 1998 11:54:16 +0900 に書きました ;
>
> > wgetで取得したファイルを、namazuで検索できるようにしているのですが、
> > たとえば、http://www.hoge.go.jp/‾boge/index.html なら
> > チルダを %7E に変換して
> > /data/www.hoge.go.jp/%7Eboge/index.html のようなディレクトリ名になります。
>
> あれ?
>
> 手元の wget 1.5.0 だと、チルダを %7E に変換しなくなってます。
>
> たしか wget 1.50β の段階では変換してたのですが、リリース版では
> 変換しなくなったみたいです(ただし OS/2 port なので UNIX 版では
> 違うかもしれません)。

Unix版 Wget 1.5.0 ですが,変換されます.
Wget 1.5.1 はまだ試していませんが,たぶん同じでしょう.


というわけで,私は,

    # URL中の危険な文字を encode する (厳密ではない)
+   $url =~ s/\/\%7E/\/~/i;  # tilder decode
    $url =~ s/\%/%25/g;  # 元から含まれる % は %25 に変更 v1.1.1.2
    $url =~ s/([^a-zA-Z0-9\-\_\.\/\:\%\|])/
        sprintf("%%%02X",ord($1))/ge;
+   $url =~ s/\/\%7E/\/~/i;  # tilder decode again
    $url;

とややこしいことをやっています.

 ______________________________________________________________
 Kenji Suzuki  <kenji@xxxxxxxxxxxxxxxx>     GANSEKI Users Group
  福井最強の検索エンジン http://www.inseki.gr.jp/‾kenji/search/
 _______________ Inseki is Not ganSEKI internet service. :-) __