Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: UTF-8 index
- From: Yukio USUDA <m6694ha392t@xxxxxxxxxxxxxxx>
- Date: Fri, 05 Mar 2004 23:34:55 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 03763
- References: <404881CB.206806BE@asahi-net.or.jp>
臼田です。
Tadamasa Teranishi wrote:
> > MS-Windowsファイルシステム上のファイル名の問題だけであれば
> > Win32版namazu配布の際(だいぶ先の話でしょうが)にパッチ
> > 済みのlibiconvを一緒に配布するか静的リンクすればよいので
> > はないでしょうか。
>
> mknmz (Perl 5.8) で utf-8 -> CP932 変換を行う可能性も否定できない
> ので、少々厄介かもしれません。
>
私がmknmzですべきこととして考えていたのは
・様々な日本語文字コードの文書
-> utf-8 -> 正規化utf-8 -> わかちがき (1)
・ファイルシステムの文字コードでのファイル名
-+-> utf-8 -> 正規化utf-8 -> NMZ.field.duri (2)
+-> 表示用文字コードでのファイル名 (3)
・ファイルシステムの文字コードでのファイル名
-> uriエンコード -> NMZ.field.uri (4)
(1),(2)はnamazuでの検索、namazuでの表示に用いるため正規化utf-8にする
(3)はmknmz処理状況の表示用なので非互換文字が消えてもよい。
また、正規化してもしなくてもよい
(4)はuriアクセスに用いるため正規化してはいけない
というもので utf-8 -> CP932 が必要となる可能性は低いと思っています。
また、(3)の処理上で必要となったとしても完全な再現ができなくても良いと思います。
寺西さんの案ではmknmz内の処理は
・様々な日本語文字コードの文書
-> utf-8 -> 正規化utf-8 -> わかちがき (5)
・ファイルシステムの文字コードでのファイル名
-+-> utf-8 -> NMZ.field.uri (6)
+-> 表示用文字コードでのファイル名 (7)
というものになるのかと思っているのですが
これにしてもmknmz側では utf-8 -> CP932 は出番がなさそうです。
私の気づいていない処理があるかもしれませんが
mknmz (Perl 5.8) で utf-8 -> CP932 変換はあまり気にしなくても
よいのではないでしょうか。
臼田幸生