Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: WebDAVサーバの検索



寺西です。

Kenji Suzuki wrote:
> 
> > いや、${uri} は EUC でないと、他とのバランスが合わないんですよ。
> > (encode されている、されていないの違いはオプションで生じますが。)
> 
> 何故でしょうか?
> 
> 変換せずもとの文字コードのままという考えもあるように思いますが。

もちろん Kenji さんにとっては変換せずにもとの文字コードのまま
扱う方が都合が良いのでしょうけれども、${uri} の中身は
NMZ.field.uri ファイルに保存されることになります。

Namazu では今のところ NMZ.* のファイルの中身の漢字コードは EUC コード
にするという縛りがあります。(これはこれで利点でもあります。)

また、${uri} は、検索結果の画面に使われるだけではなくて、フィールド
検索に使われます。(使うことができます。)
そのためにもやはり、漢字コードは EUC コードでなければなりません。
# 少なくとも Namazu 2.0系はそういう縛りになるでしょう。

というような Namazu 全体のバランスから考えると、EUC に変換すると
いうのがごく自然です。
(本件の場合は、それが必ずしも有益とはいえないかもしれませんが。)

今のところ内部コードは EUC。NMZ.* の中身も EUC というのが仕様です。
(これを unicode に変えたいなぁとは思っていますが、実現するのは
随分と先のことでしょう。)

とりあえず、出力結果とか、ファイル名の漢字コードぐらいは EUC 
以外に(多少の不具合があっても、そこそこ使えれば良い程度に)
対応することはできるかと思っていますが、その対応方法が今回の話な
わけです。(現在の 2.0系の仕様の範疇でなんとかする)

今まで全く考慮されていなかったファイル名の漢字コードについては、
きちんと対応するとなると、それなりに特別な処理とか仕様追加をしないと
いけないでしょうから、2.1系かそれ以降で煮詰める必要があります。
(今すぐどうこうできる話ではないでしょうね。結構厄介そうだし。)
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E