Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: 全角半角変換
- From: knok@xxxxxxxxxxxxx
- Date: Sat, 07 Jun 2003 16:01:40 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 02962
- References: <LHEMJHJLPMHGBDJJGOJHOECKCGAA.atropos@yeslaw.com> <200306040337.MAA04786@x81002.hsba.go.jp>
元々(1.x時代)は、割と全角/半角文字の正規化はちゃんとしていたのではい
ないかと思います。
各種 filter が増えてきたところで、その出力が変換するツールによってま
たさまざまに変化するようになってきていて、その辺りへのケアが不十分なま
ま現在に至っている、というのが私の認識です。
扱いの明確なルールというのはないと思います。
At Wed, 04 Jun 2003 12:47:45 +0900,
Yukio USUDA wrote:
> taro7_10.plの出力で現在以下の3点が気になっています
> 1.丸数字、"−"、"〜"が消滅する。
> utf16->EUCの変換に用いているunicode.plがwindows系の
> 変換表CP932を使用していないためなのですが、通常
> 検索語に使う文字ではないだろうから無視しようと思って
> います。
私もそれで問題ないと思います。
> 2.半角カナを全角にせずにEUCの2byte半角カナのまま出力し
> ている。
> 3.全角英数、記号をそのまま出力している。
> codeconv.plに更にサブルーチンを設けるか、最後にnkfを通し
> て正規化を任すのがよいのかこのままにしておくのがよいのか
> 悩んでいます。
Encode.pm の採用という最近の話題も考慮すると、やはり nkf に依存しな
い処理を用意する方向が良いように思います。
--
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx
knok@xxxxxxxxxx / knok@xxxxxxxxxx