Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: UTF-8 index
- From: Yukio USUDA <usuda@xxxxxxxxxx>
- Date: Mon, 01 Mar 2004 15:49:52 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 03737
- References: <4042D220.70A11416@asahi-net.or.jp>
臼田です
Tadamasa Teranishi wrote:
> > > nkf(1) より:
> > > -x 通常おこなわれるX0201仮名->X0208の仮名変換をしないで、
> > > X0201仮名を保存する。入力は、MS-Kanjiの1byte仮名、SO/SI、
> > > ESC-(-I, SSOを受け付ける。出力は、日本語EUC中ではSSO、
> > > JISでは ESC-'('-I を使う。
> > >
> > -xオプションを試したところ期待通りの動作をしました。
> > ファイル名を変換するときは"mXZ1"のかわりに"x"をつけて変換するように
> > すれば半角カナ問題はとりあえずは解決ですね。
>
> 手元の環境ではうまく動いていないのですが、何か私勘違いしていますかね。
> (以下テストした内容です。"カタカナ" は半角です。)
>
> $ echo "カタカナ" | nkf -xs | od -t xCa
>
> 0000000 8e b6 8e c0 8e b6 8e c5 0a
> so 6 so @ so 6 so E nl
>
> $ echo "カタカナ" | iconv -f eucjp -t sjis | od -t xCa
>
> 0000000 b6 c0 b6 c0 b6 c5 0a
> 6 @ 6 @ 6 E nl
> 0000007
>
> 余計な 8e が入っているように見えます。
>
8eはeuc-jpでの半角カナ(2バイト文字)の1バイト目です。
文字列が短すぎてsjisと区別がつかず
nkfが変換せずに通してしまったのではないでしょうか。
nkf -Exs として入力コードを教えてあげれば
期待通りの動作になると思います。
臼田幸生