Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: UTF-8 index
- From: Yukio USUDA <m6694ha392t@xxxxxxxxxxxxxxx>
- Date: Sat, 28 Feb 2004 05:24:24 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 03720
- References: <D7C3FD4BBF4313sakuma@beetas.org>
臼田です。
"Sakuma,Hiroaki" wrote:
> nkfは使っても構わないのですが,5.8が必須となるようだと困ります.Shift-JISや
> JISとの相互変換はUnicode::Mapでも出来ます.Perlのネイティブな機能を使ってい
> るところを,5.6でも使えるように対応して欲しいだけで,日本語コードの判定など
> はnkf任せで構わないと思います.
>
国際化を念頭にutf-8化をしておこうと考えております。
ただし、日本語文書しか扱わないので古い環境でも動かしたいというニーズには可能な
範囲で対応していくつもりです。
内部utf-8にしていますが、Perl5.004で動かすことを考え、mknmz内ではバイナリデータ
として持ち歩いているだけでutf-8文字としては扱っていません。
nkf2に頼るのであればutf-8の日本語文書処理にPerl5.8もUnicode::Mapも不要です。
Perl5.6以前でnkf2がある場合はnkf2に処理をしてもらうようにしています。
今のところ、Text::Kakasi2.0でutf-8コードを分かちがきする際にはPerl5.8が
必須なのでそのような環境でテストしていますが、kakasiの次のリリースでutf-8が
サポートされればkakasiによる日本語分かちがきもPerl5.004環境でできるようにし
ます。
現状でもChasenやMecabもPerl5.8でなくてもutf-8の分かちがきができるはずなので
すが、私が試していないだけです。
臼田幸生