Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: UTF-8 index
寺西です。
knok@xxxxxxxxxxxxx wrote:
>
> > なるほど。どうやら自動認識の場合の処理にバグらしきものがある
> > ようで、そこそこ長い文字列の場合でも 8e が入ります。
> > しかし、入力文字コードを指定してやれば期待通りに動くようですね。
>
> いわゆる半角かながまじると、自動認識は困難になるそうです。なのでまあ
> ある程度はしかたがないのかなと思っていました。
あぁ、なるほど余計な 8e が入っているわけじゃなくて、自動認識に
失敗して EUC-JP のまま無変換で出力されていたわけですね。
失礼しました。
iconv, lv は自動認識しますが、nkf はEUC-JPの半角カナの自動認識が
できないだけでした。
> 個人的には、エンコーディングの自動認識についてもひとつレイヤとして処
> 理を独立させるべきでは、と思っています。文字列からの推測だけでなく、
どのあたりのエンコーディングの自動認識についてでしょうか。
> Apache で行うような、ファイル名にエンコーディング情報を付加する方法も
> ありえますし、XML 宣言の encoding 指定みたいな方法もあります。そういっ
> た諸々の情報を総合的に扱えるレイヤが欲しいな、と。
総合的にですか。なかなか難しい話ですよね。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E