namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Namazu v1.1.2.3 released! (Re: tknamazu 1.06 release)



こんにちは、林@農林水産研究情報センターです。

Namazu v1.1.2.3のちょっとした不具合の報告です。

wgetで取得したファイルを、namazuで検索できるようにしているのですが、
たとえば、http://www.hoge.go.jp/~boge/index.html なら
チルダを %7E に変換して
/data/www.hoge.go.jp/%7Eboge/index.html のようなディレクトリ名になります。

これを mknmz にかけると、% が %25 に変換されるため
検索結果のURLが
/data/www.hoge.go.jp/%257Eboge/index.html
のように表示されてしまいます。

mknmz.pl の 1277行あたり、

    # URL中の危険な文字を encode する (厳密ではない)
    $url =~ s/\%/%25/g;  # 元から含まれた % は %25 に変更 v1.1.1.2
    $url =~ s/([^a-zA-Z0-9\-\_\.\/\:\%\|])/
        sprintf("%%%02X",ord($1))/ge;
    $url;

を

    # URL中の危険な文字を encode する (厳密ではない)
    $url =~ s/\%/%25/g;  # 元から含まれた % は %25 に変更 v1.1.1.2
    $url =~ s/\%257E/%7E/g;  
    $url =~ s/([^a-zA-Z0-9\-\_\.\/\:\%\|])/
        sprintf("%%%02X",ord($1))/ge;
    $url;

のようにすればよいのかと素人ながら思うのですが、どうでしょう?

#「国内図書館Webページ全文検索システム」
  http://www.affrc.go.jp/~tzhaya/library/seek4lib.cgi
  で、namazuを使わせていただいております。


-----農林水産研究情報センター          林 賢紀
-----   tzhaya@xxxxxxxxxxx           (Takanori Hayashi)