Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [RFC] ${uri}の拡張 (Re:[namazu-users-ja] Re: 検索結果のURLを日本語表示したい)
- From: Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx>
- Date: Mon, 08 Dec 2003 19:19:01 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 03399
- References: <20031202134441.CC37.NAKASIMA@mytv.co.jp> <3FCC1D87.92765A39@asahi-net.or.jp> <20031202141124.CC39.NAKASIMA@mytv.co.jp> <200312020540.OAA08506@mail1.rim.or.jp> <3FCC2910.69CEA95@asahi-net.or.jp> <200312040333.MAA25144@mail1.rim.or.jp> <87llpnvgn5.wl@knok.daionet.gr.jp>
寺西です。
knok@xxxxxxxxxxxxx wrote:
>
> uri の encoding を何らかに統一することは賛成です。国際化を考慮すると、
> やはり UTF-8 にするのが良いのでしょうか。
とりあえず euc-jp で。
UTF-8 化はインデックス全部のコードを変更する際(いつのことやら)に
あわせておこないましょう。
まだ、UTF-8 を内部で処理できる環境は整っていない(いろいろな
処理が euc-jp 前提になっている)ので、いろいろとバグがでそうで、
一つ一つ潰すのは大変かもと思います。
(また、いろいろ UTF-8 対応するならインデックスを UTF-8 化すること
も可能なので、まとめてやった方がいいでしょう。)
> > マルチバイト文字コードの操作に、libmbflを使おうと考えています。
>
> うーん、普通に iconv で良いような。
unicode に対応していない(だったか、Shift_JIS だったか) OS 付属の
iconv があったりするので、GNU iconv を強制的に使うようにするのなら、
それでも良いかもしれません。
ついでにフィルタで unicode -> euc-jp に変換するのに外部プログラムを
いろいろと呼び出しているので、これを libmfl なり libiconv なりを
使った変換プログラムに差し替えることを考えて、都合の良い方を選ぶ
というのも良いかもしれません。(lv の代わりを自前で用意するという
ことです。)
この辺りは、unicode 変換の perl ライブラリをいろいろと調べられていた
臼田さんが詳しいと思うので、コード変換のライブラリを選ぶ際に気を
つけること、要望なりの意見を伺えればと思います。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E