Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
charset for encode filename (Re: Re: html-split について)
From: 小関 吉則 (KOSEKI Yoshinori) <kose@xxxxxxxxxxxxxxxxxx> さん曰く
Subject: [namazu-devel-ja] Re: html-split について
Message-ID: <2000Mar15ya7lvy9y.kose@xxxxxxxxxxxxxxxxxx>
Date: 15 Mar 2000 10:04:57 +0900
高林> >今のコードにUTF-8ベースの処理を付け加える必然性はさほど無いと思うので、
高林> >Namazuのインデックス全体をUTF-8ベースに変更する時についでに、
高林> >これらの変更も加えれば良いのではと思います。
高林> そうですね。当面は保留にします。
小関> 「html-split 機能を追加しました」でリリースすると FAQ になる
小関> と思いますよ。
ちょっと違う話(しかもレアケースかな)になるのですが、
● Win32 上で
c:/tmp/漢字:
total 61
drwxrwxrwx 2 shirai 5 0 Mar 14 14:46 .
drwxrwxrwx 14 shirai 5 0 Mar 15 10:29 ..
-rw-rw-rw- 1 shirai 5 7932 Mar 13 13:53 なまず.html
の様な日本語混じりのものを mknmz する。
● そうすると、
'/c|/tmp/漢字/なまず.html' => '/c|/tmp/%8A%BF%8E%9A/%82%C8%82%DC%82%B8.html'
という風に SJIS を encode したものになる。
● 上記で作った INDEX を UNIX(euc-jp ベース)に copy する。
● UNIX 上で
% namazu 入門 ./
検索結果
参考ヒット数: [ 入門: 1 ]
検索式にマッチする 1 個の文書が見つかりました。
1. Namazu 2.0 tutorial (スコア: 8)
著者: developers@xxxxxxxxxx
日付: Mon, 13 Mar 2000 13:53:09
Namazu 2.0 入門 目次 本書の目的 開発の推移 Namazu の構成部品 準備と make 日本語環境での利用 make install 前の確認 help の表示 動作確認 mknmz mknmz の調整 動作確認 namazu Namazu でできること できない
/c|/tmp/xxx.html (21,292 bytes)
~~~~~~~~~ euc-jp として扱うので当然化け化けになる。
となります。逆の UNIX => Win32 でも同様でしょう。
というわけで、file 名を encode するときも euc-jp に変換してから
の方がいいと思います。
Win32 で --no-encode-uri のときも euc-jp にして保存すると動くで
しょうし。現状では、SJIS のまま書いちゃうので『不明問題』と同じ
になっちゃう。
--
白井秀行 (mailto:shirai@xxxxxxxxxxxxxxxxxxx)