Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: UTF-8 index
寺西です。
# まだ、中身みていません。
Yukio USUDA wrote:
>
> メンテナンスの労力を考えるとeuc-jp,utf-8の2種類のインデックスを
> サポートするのは難しいと感じており、方針を決めかねて作業が止まっ
> ています。
> インデックスはutf-8のみにしてしまってよいでしょうか?
utf-8 のみに一票。
> * Perl5.8EncodeモジュールもしくはPerl5.6以前ではNKF2を必須とした
> $var::USE_NKF_MODULEを廃止、$conf::NKFのみで設定することにした。
NKF 2.04 以降のバージョンチェックは行っていますか?
> $INDEXFIELD_FILESYS_CHARSET:インデックス時にEUC-jpにしてからuri
> エンコードしている現状との互換性のため。
> (mknmz内では変換せずにインデックスを別サーバーに移す際に
> NMZ.field.uriを書き換えるようにして、別途ツールを作ったほうが
> よいと思う)
いや統一しておきましょう。
> * CAP,HEX,utf-8等のファイル名を可読性のあるものとして扱えるように
> codeconv::decode_filenameを追加
> NMZ.field.duriを残すようにした。
この辺りは将来手を加えたいと思います。
> 今後の予定
> 1.インデックスの文字コードをutf-8のみでいくのであれば
> ・あちこちに残っているeuc-jp用の処理を削除していく。
> ・template内の他のファイルもutf-8にしていく
1 で良いでしょう。
互換性以外に euc-jp のインデックスを使い続ける意味はありません。
インデックスファイルのフォーマットは変更したいところがあります
ので、2.0 のインデックスとは別物と考え、漢字コードは UTF-8 に
統一としましょう。
フォーマットを変えたいので、どのみち互換性が崩れます。ゆえに euc-jp
である必要はなくなります。
ファイルサイズが増えるから UTF-8 は嫌だという意見もあるかもしれません
が、フォーマットの変更によるデータの圧縮(gzip 圧縮化などを含む)も
考えています。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E