Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: UTF-8 index
寺西です。
Yukio USUDA wrote:
>
> 8eはeuc-jpでの半角カナ(2バイト文字)の1バイト目です。
それは承知しているのですが。
> 文字列が短すぎてsjisと区別がつかず
> nkfが変換せずに通してしまったのではないでしょうか。
> nkf -Exs として入力コードを教えてあげれば
> 期待通りの動作になると思います。
なるほど。どうやら自動認識の場合の処理にバグらしきものがある
ようで、そこそこ長い文字列の場合でも 8e が入ります。
しかし、入力文字コードを指定してやれば期待通りに動くようですね。
# 直してもらった方がよさそう。使えないじゃんとずっと思っていました。
自動認識で半角カナを使うルーチンは今のところ Namazu にはないので、
入力文字コードを指定した上で -x を使うのは大丈夫そうです。(たぶん)
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E