Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: UTF-8 index
寺西です。
"Komai @home" wrote:
>
> >このため、「元に戻らない文字がないわけでもないが、その文字がファイル
> >名、ディレクトリ名として使われていることはほとんどない」という状況
> >になっています。
> >(もちろん絶対にないということはないわけですが。)
>
> こういったファイル名(というか文字コード可逆変換)については、
> どこかのタイミングで、mknmzの際の LogのNMZ.errにチェックして
> 書き出しを行っておくというしくみは難しいでしょうか?
まだ構想中なのでそもそもコード変換の仕組み自体出来上がっていません。
しかし、これを行う場合、元に戻らない文字を含むパスは skip する
ようなチェックは行いたいと思っています。
また、あるディレクトリ以下のパス、ファイル名のチェックを行う
ユーティリティプログラムも必要になるだろうと思っています。
(流石に書き換えまでやるのは怖いので、その機能は付けたくないけど。)
> 分かち書きを行う前に、ファイルの中身も一応、そういう文字列があるか
> どうかをチェックするとか?
分かち書きとかの際に問題になりません。UTF-8 で処理しますから。
というか、UTF-8 になった時点である意味、情報が欠落したと考える
こともできます。(だが、そもそも冗長な情報なんだが)
> ファイル名、ディレクトリ名だけではなくて、本文中の文字列についても。
> 難しいでしょうか。。
その必要性を全く感じませんが。さて、何を心配されているのでしょう。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E