Namazu-devel-ja(旧)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index

From: Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx>
Date: Sat, 06 Mar 2004 00:12:31 +0900
X-ml-name: namazu-devel-ja
X-mail-count: 03765
References: <404881CB.206806BE@asahi-net.or.jp> <200403051435.i25EZ2L07572@mailr1.asahi-net.or.jp>

寺西です。

Yukio USUDA wrote:
> 
> 寺西さんの案ではmknmz内の処理は
> 
> ・様々な日本語文字コードの文書
>       -> utf-8 -> 正規化utf-8 -> わかちがき (5)
> ・ファイルシステムの文字コードでのファイル名
>       -+-> utf-8 -> NMZ.field.uri (6)
>        +-> 表示用文字コードでのファイル名 (7)
> 
> というものになるのかと思っているのですが
> これにしてもmknmz側では utf-8 -> CP932 は出番がなさそうです。

(7) にあたるのでしょうか。uri に限らず、ファイルパスの処理も utf-8 で
行いたいと思っています。例えば、"\" を "/" に変えたり、ファイル名を
取り出したり、フルパスを繋いだり...などパス処理全般です。

処理後、ファイルをオープンする際に元のコードに戻してオープンする
といった感じですね。

変換処理が MS のものと同じなら、ほとんど実用上問題になることは
ないはずなんです。(元に戻らない文字もないわけではないが、
その文字はほとんど使われていることはないため。)

これは 2バイト目に 0x7c の文字を含む Shift_JIS の対策がやり易い
ということが根底にありますが、
パス処理を utf-8 で行うと、他国の言語であっても処理を変えることなく、
対応できる(可能性が高い)のです。(実際、本当にそうかどうかは分かり
ませんし、日本だけが厄介な問題を抱えているだけかもしれません。
2バイト目に 0x7c の文字が含まれる CodePage は他にあるのかすら
知りませんが、0x7c 以外にも類似の問題がないとは限りませんから。)

# もっとも、左から右に向かう文字の文化しか考えてはいないので、
# 多国語対応のためというには無理があるかもしれませんが。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E

Follow-Ups:
- Re: UTF-8 index
  - From: Yukio USUDA
- Re: UTF-8 index
  - From: Komai @home

References:
- Re: UTF-8 index
  - From: Tadamasa Teranishi
- Re: UTF-8 index
  - From: Yukio USUDA

Prev by Date: Re: EUC-JP strings in perl scripts
Next by Date: Re: UTF-8 index
Previous by thread: Re: UTF-8 index
Next by thread: Re: UTF-8 index
Index(es):
- Date
- Thread