Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 中国語、韓国語を扱う?



坂本です。
# 韓国"語"や中国"語" に詳しいわけでは全然ないのですが、

> From: knok@xxxxxxxxxxxxx (NOKUBI Takatsugu)
>   韓国語での Namazu の利用しているサイトとしては、Debian KR
> <http://www.debian-kr.org/> があります。
>   韓国語は単語間に空白を入れる習慣がある(?)らしく、これで実用になって
> いるようです。
>   あ、もちろん encoding は揃える必要があると思います。
>   中国語に関してはよくわかりません... そもそも中国語で単語に相当するも
> のがあるのかどうかもわからないのですが、漢字1時単位で分割するだけでも
> 良いのかもしれません。
>   中国語に詳しい人のフォローを期待したいところです ^^;

w3m の多言語化をやっている時に韓国人の方に教えてもらったのですが、
韓国語は、英語の様にわかち書きをするのですが、表示の時の折り返し
(改行位置)は日本語の様に単語中でも良い様です。

文字コードに関しては、以下のサイト
  http://www.asahi-net.or.jp/~EZ3K-MSYM/charsets/charsets.htm
などが詳しいのですが、概略を書いておくと、

* 韓国語
  EUC-KR (韓国語 EUC, KSX1001) が主に使われている様ですが、その上位
  互換の Unified Hangul Code (UHC) と呼ばれるものもあって Windows で
  CodePage 949 として採用されているようです。Johab というものもあります。
* 中国語(簡体字、大陸本土)
  GB2312 (中国語 EUC, EUC-CN) が主に使われている様ですが、
  その上位互換の GBK と呼ばれるものもあって Windows で CodePage 936
  として採用されているようです。さらに、昨年 GBK に 4bytes 文字を追加
  して Unicode の上位互換とした GB18030 とよばれる*強制力*をもつ文字
  コードが制定されています。7bit 系の HZ というものもあります。
* 中国語(繁体字、台湾,香港)
  Big5 が主に使われている様ですが、種々の方言や拡張(HKSGS, Big5+,
  CodePage 950 など)があります。EUC-TW (4bytes EUC, 文字集合は
  台湾政府の制定した CNS11643) というものもありますが、あまり
  使われていないようです。

各種 EUC 以外は Shift-JIS の様に multibyte 文字の 2byte 目に ASCII
部分が来ることがあります。
# そのため繁字体中国語(Big5)ではうまく検索できないのかもしれません。
-----------------------------------
坂本 浩則 <hsaka@xxxxxxxxxxxxxxxxx>
 http://www2u.biglobe.ne.jp/~hsaka/