Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



臼田です

Tadamasa Teranishi wrote:

> > ○数字など絶対問題になることが分っていて割と使われそうなものがあります。
> 
> Win32版 iconv で丸数字の可逆変換テストをしてみましたが、ちゃんと
> 元に戻っていました。(さて、何の文字が問題なんでしょう。)

丸数字の入ったsjis.txtを作って以下のように試しました

手元のcygwin上で
iconv (GNU libiconv 1.9)
Network Kanji Filter Version 2.0 (4/0401/Shinji Kono) 

nkf2.04同士で試すと
$ nkf -Sxw sjis.txt |nkf -Wxe 
丸数字も相互変換が可能でした。

$ iconv -f shift-jis -t utf-8  sjis.txt |iconv -f utf-8 -t euc-jp
とすると
iconv: sjis.txt: cannot convert
と出て、
丸数字以降の文字は出てきません。
utf-8にする時点でエラーになるようです

少し考えて以下のようにしたらshiftjis,utf-8,euc-jpと丸数字を残したまま
変換できました
$ iconv -f cp932 -t utf-8 sjis.txt |iconv -f utf-8  -t euc-jisX0213

どうやら大丈夫そうですね。

> Windows NT 系ファイルサーバは UNICODE で管理していて、クライアント
> とのやり取りの間に Shift_JIS に変換されるはずです。
> Windows 系では UNICODE <-> Shift_JIS 変換は日常的に行われています。
> 
> これで問題が起きないのなら、何らかの方法(Win32で使っている
> 変換テーブルを用意するなり)で対処可能な気はします。

Samba3.0で文字コードがUTF-8になったことによる問題について述べられている
ページがあります。
http://www.miraclelinux.com/technet/samba30/
正確には理解できていないので、どのように対処すべきなのかわかっていませんが
ここで出てくるような文字が厄介ごとの種となっているのではと思っておりました。

臼田幸生