Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: UTF-8 index
臼田です。
> > > 今後の予定
> > > 1.インデックスの文字コードをutf-8のみでいくのであれば
> > > ・あちこちに残っているeuc-jp用の処理を削除していく。
> > > ・template内の他のファイルもutf-8にしていく
> >
> > 1 で良いでしょう。
> > 互換性以外に euc-jp のインデックスを使い続ける意味はありません。
> とりあえず呼び出されなくなっているサブルーチン等を削っていきます。
utf8index-branchに少しづつ修正をしております
pl/codeconv.plから
shiftjis<->eucjpに使われていた
eucjp_to_shiftjis, etos, shiftjis_to_eucjp, stoe, toeuc
を削りました。
あわせて
filter/win32/{oleexcel.pl, olemsword.pl, olepowerpoint.pl}
からのcodeconvの呼び出しを変えました。
filter/rpm.plのsummary作成個所にバグらしきものがあるのを見つ
けたので修正しました。(utf8index-branchのみ)
分かちがきツールの特定をconfigureとmknmz内の両方で行っていて
なおかつ、設定や初期化をmknmz内数箇所とwakati.pl内と処理が
数箇所で行われているので
mecabのPerlモジュールの初期化のように
Text::KakasiやText::Chasenもwkati.pl内で初期化するようにして
処理を一箇所に固めたいと思っております。
indexer.plのようなスタイルにしたいのですが、よくわからなく
なってきたので少し考えてから行います。
臼田幸生