Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UTF-8 index



寺西です。

Yukio USUDA wrote:
> 
> 8eはeuc-jpでの半角カナ(2バイト文字)の1バイト目です。

それは承知しているのですが。

> 文字列が短すぎてsjisと区別がつかず
> nkfが変換せずに通してしまったのではないでしょうか。
> nkf -Exs として入力コードを教えてあげれば
> 期待通りの動作になると思います。

なるほど。どうやら自動認識の場合の処理にバグらしきものがある
ようで、そこそこ長い文字列の場合でも 8e が入ります。
しかし、入力文字コードを指定してやれば期待通りに動くようですね。

# 直してもらった方がよさそう。使えないじゃんとずっと思っていました。

自動認識で半角カナを使うルーチンは今のところ Namazu にはないので、
入力文字コードを指定した上で -x を使うのは大丈夫そうです。(たぶん)
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E