Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 日本語のディレクトリー名とファイル名で困っています ( 自己解決)



2001/04/17 10:50:29 +0900にSakuyama <sakuyama.akio@xxxxxxxxx>さんに頂いた
「[namazu-users-ja] Re: 日本語のディレクトリー名とファイル名で困っています (自己解決)」への返事です。
とがちゃん@日立何の気です

>こんにちは、作山@日本総研です。
>>発生している現象
>> wgetで収集したファイル名がshift-jisで保存される
>> 為に、うまくmknmzできなかったり、Link先に
>> Jumpできなかったりしている。
>> (ディレクトリー名は %8Edなどのようにエンコード
>> された状態で保存されているがファイル名が英字の
>> 場合は、正常にJumpできる。)
>
>以下のような形で正常にLink先へJumpできるように
>インデックス作成が出来るようになりました。
>根本原因
>  wgetがShift-JIS(カナ・漢字)のファイル名がShift-JISのまま
>  Solaris内に記録されてしまう。
>解決策
>  私の力では、wgetのソースまでは手を出し切れないので、
>  wgetで取得後、ファイル名にカナ漢字が含まれているものに
>  ついて、%xxのエンコード後のファイル名にRenameする
>  perlを作成し、個々のファイル名をRenameするように
>  しました。
>  結果、namazuの検索結果上では、エンコードした%xxの
>  表示で見苦しいが、正常にLink先にJumpできるように
>  なりました。

解決できたのでもういいのかも知れないけどnkfでEUCに変換という手
を使うと思っていたのですがこれは×の結論だったのでしょうか?
(最初のメールで ls | nkf --sjis --euc
                とすると
   inadl.doc が JOB仕様書.doc と見える)
と書いてあったのでそうするのがいいな?私は思っていました。

また、同様な問題に遭遇する場合もでてくるとも思いますのでそのPerlは公開
して問題ないなら参考にしたいなぁ.....と思います