Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: UTF-8 index
寺西です。
Yukio USUDA wrote:
>
> 寺西さんの案ではmknmz内の処理は
>
> ・様々な日本語文字コードの文書
> -> utf-8 -> 正規化utf-8 -> わかちがき (5)
> ・ファイルシステムの文字コードでのファイル名
> -+-> utf-8 -> NMZ.field.uri (6)
> +-> 表示用文字コードでのファイル名 (7)
>
> というものになるのかと思っているのですが
> これにしてもmknmz側では utf-8 -> CP932 は出番がなさそうです。
(7) にあたるのでしょうか。uri に限らず、ファイルパスの処理も utf-8 で
行いたいと思っています。例えば、"\" を "/" に変えたり、ファイル名を
取り出したり、フルパスを繋いだり...などパス処理全般です。
処理後、ファイルをオープンする際に元のコードに戻してオープンする
といった感じですね。
変換処理が MS のものと同じなら、ほとんど実用上問題になることは
ないはずなんです。(元に戻らない文字もないわけではないが、
その文字はほとんど使われていることはないため。)
これは 2バイト目に 0x7c の文字を含む Shift_JIS の対策がやり易い
ということが根底にありますが、
パス処理を utf-8 で行うと、他国の言語であっても処理を変えることなく、
対応できる(可能性が高い)のです。(実際、本当にそうかどうかは分かり
ませんし、日本だけが厄介な問題を抱えているだけかもしれません。
2バイト目に 0x7c の文字が含まれる CodePage は他にあるのかすら
知りませんが、0x7c 以外にも類似の問題がないとは限りませんから。)
# もっとも、左から右に向かう文字の文化しか考えてはいないので、
# 多国語対応のためというには無理があるかもしれませんが。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E