Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



小舞です。

詳しい説明ありがとうございます。

Tadamasa Teranishi さんは書きました:
>このままでは 0xFA4A が使えなくて困りそうですが、MS-IME で入力する
>場合、通常 0x8754 の方が使われるようですので、そもそも 0xFA4A の
>文字を入力することは容易ではなくなっています。
>このため、「元に戻らない文字がないわけでもないが、その文字がファイル
>名、ディレクトリ名として使われていることはほとんどない」という状況
>になっています。
>(もちろん絶対にないということはないわけですが。)

こういったファイル名(というか文字コード可逆変換)については、
どこかのタイミングで、mknmzの際の LogのNMZ.errにチェックして
書き出しを行っておくというしくみは難しいでしょうか?

分かち書きを行う前に、ファイルの中身も一応、そういう文字列があるか
どうかをチェックするとか?

ファイル名、ディレクトリ名だけではなくて、本文中の文字列についても。
難しいでしょうか。。

=kp@stellar=