namazu-ml(avocado)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Namazu v1.1.2.3 released! (Re: tknamazu 1.06 release)
こんにちは、林@農林水産研究情報センターです。
Namazu v1.1.2.3のちょっとした不具合の報告です。
wgetで取得したファイルを、namazuで検索できるようにしているのですが、
たとえば、http://www.hoge.go.jp/~boge/index.html なら
チルダを %7E に変換して
/data/www.hoge.go.jp/%7Eboge/index.html のようなディレクトリ名になります。
これを mknmz にかけると、% が %25 に変換されるため
検索結果のURLが
/data/www.hoge.go.jp/%257Eboge/index.html
のように表示されてしまいます。
mknmz.pl の 1277行あたり、
# URL中の危険な文字を encode する (厳密ではない)
$url =~ s/\%/%25/g; # 元から含まれた % は %25 に変更 v1.1.1.2
$url =~ s/([^a-zA-Z0-9\-\_\.\/\:\%\|])/
sprintf("%%%02X",ord($1))/ge;
$url;
を
# URL中の危険な文字を encode する (厳密ではない)
$url =~ s/\%/%25/g; # 元から含まれた % は %25 に変更 v1.1.1.2
$url =~ s/\%257E/%7E/g;
$url =~ s/([^a-zA-Z0-9\-\_\.\/\:\%\|])/
sprintf("%%%02X",ord($1))/ge;
$url;
のようにすればよいのかと素人ながら思うのですが、どうでしょう?
#「国内図書館Webページ全文検索システム」
http://www.affrc.go.jp/~tzhaya/library/seek4lib.cgi
で、namazuを使わせていただいております。
-----農林水産研究情報センター 林 賢紀
----- tzhaya@xxxxxxxxxxx (Takanori Hayashi)