Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



寺西です。

"Komai @home" wrote:
> 
> >このため、「元に戻らない文字がないわけでもないが、その文字がファイル
> >名、ディレクトリ名として使われていることはほとんどない」という状況
> >になっています。
> >(もちろん絶対にないということはないわけですが。)
> 
> こういったファイル名(というか文字コード可逆変換)については、
> どこかのタイミングで、mknmzの際の LogのNMZ.errにチェックして
> 書き出しを行っておくというしくみは難しいでしょうか?

まだ構想中なのでそもそもコード変換の仕組み自体出来上がっていません。
しかし、これを行う場合、元に戻らない文字を含むパスは skip する
ようなチェックは行いたいと思っています。

また、あるディレクトリ以下のパス、ファイル名のチェックを行う
ユーティリティプログラムも必要になるだろうと思っています。
(流石に書き換えまでやるのは怖いので、その機能は付けたくないけど。)
 
> 分かち書きを行う前に、ファイルの中身も一応、そういう文字列があるか
> どうかをチェックするとか?

分かち書きとかの際に問題になりません。UTF-8 で処理しますから。
というか、UTF-8 になった時点である意味、情報が欠落したと考える
こともできます。(だが、そもそも冗長な情報なんだが)

> ファイル名、ディレクトリ名だけではなくて、本文中の文字列についても。
> 難しいでしょうか。。

その必要性を全く感じませんが。さて、何を心配されているのでしょう。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E