Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: UTF-8 index
- From: Yukio USUDA <m6694ha392t@xxxxxxxxxxxxxxx>
- Date: Sat, 28 Feb 2004 05:03:19 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 03719
- References: <403F9869.E308605E@asahi-net.or.jp>
臼田です。
Tadamasa Teranishi wrote:
> # まだ、中身みていません。
nmz/codeconv.cは、HEADに入っているものより古いソースを参考にしています。
直してください。お願いします。
> > メンテナンスの労力を考えるとeuc-jp,utf-8の2種類のインデックスを
> > サポートするのは難しいと感じており、方針を決めかねて作業が止まっ
> > ています。
> > インデックスはutf-8のみにしてしまってよいでしょうか?
>
> utf-8 のみに一票。
私もutf-8のみに一票投じておきます。
> > * Perl5.8EncodeモジュールもしくはPerl5.6以前ではNKF2を必須とした
> > $var::USE_NKF_MODULEを廃止、$conf::NKFのみで設定することにした。
>
> NKF 2.04 以降のバージョンチェックは行っていますか?
configureでnkf2以上であるかどうかはチェックしています。
nkfは2.04であるかどうかわかるのでもう少しチェックを厳しくできます。
ただし、nkfのperlモジュールは2.00までしかバージョン番号が入っていないため
枝番号のチェック方法がわかりませんでした。古川さんによい方法を聞かないと。
> > $INDEXFIELD_FILESYS_CHARSET:インデックス時にEUC-jpにしてからuri
> > エンコードしている現状との互換性のため。
> > (mknmz内では変換せずにインデックスを別サーバーに移す際に
> > NMZ.field.uriを書き換えるようにして、別途ツールを作ったほうが
> > よいと思う)
>
> いや統一しておきましょう。
では、$INDEXFIELD_FILESYS_CHARSETは廃止して、文字コード変換をせずに
元のバイナリコードのままuriエンコードすることにします。
(という意味の統一ですよね)
> > * CAP,HEX,utf-8等のファイル名を可読性のあるものとして扱えるように
> > codeconv::decode_filenameを追加
> > NMZ.field.duriを残すようにした。
>
> この辺りは将来手を加えたいと思います。
よろしくお願いします。namazu側の修正が最小限でもiconvのエラーをかわせる
ようにと、こういう実装にしました。うまく解決してください。
> > 今後の予定
> > 1.インデックスの文字コードをutf-8のみでいくのであれば
> > ・あちこちに残っているeuc-jp用の処理を削除していく。
> > ・template内の他のファイルもutf-8にしていく
>
> 1 で良いでしょう。
> 互換性以外に euc-jp のインデックスを使い続ける意味はありません。
とりあえず呼び出されなくなっているサブルーチン等を削っていきます。
> インデックスファイルのフォーマットは変更したいところがあります
> ので、2.0 のインデックスとは別物と考え、漢字コードは UTF-8 に
> 統一としましょう。
> フォーマットを変えたいので、どのみち互換性が崩れます。ゆえに euc-jp
> である必要はなくなります。
> ファイルサイズが増えるから UTF-8 は嫌だという意見もあるかもしれません
> が、フォーマットの変更によるデータの圧縮(gzip 圧縮化などを含む)も
> 考えています。
utf-8化によってサイズが大きくなるのはNMZ.field.summaryとNMZ.wですが、
元の文書等によりますが、他のファイルのほうがサイズが大きくなるので
あまり目立たないかもしれません。
臼田幸生