namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Namazu v1.1.2.5 and v1.2.0-beta-5 released



Masayasu Ishikawa <mimasa@xxxxxxxxxxxxxxxxx> wrote:

>> 英語のドキュメントですか…。そのうち準備します (たぶん)。今の仕様
>> だと KAKASI/ChaSen と nkf が必須なので、これらがなくても動作するモー
>> ドをつけないといけないですね。
>
>英語で書くならレビューくらいはやってもいいです。

お願いします。


>> あと、内部処理は完全に EUC-JP に依存しているので ISO-8859-1 みたい
>> な 8 bit のコードが来ると困ったことになります。
>
>こっちの方が問題ですね…。私の職場には Jean-Fran&ccedil;ois とか
>H&aring;kon とか D&uuml;rst とかいった名前の人がゴロゴロいるので、
>これらが扱えないようだと率直に言って使い物になりません。

Namazuに限らず困った話です。


># でも、「EUC-JP に」依存しているなら、少なくともウムラウトやアクサン
># 付きの文字は code set 3 の JIS X 0212 の文字に変換すれば扱えるんです
># よね? ;-p

またそういう意地悪なことを…。 EUC-JP の code set 0 と 1 しか考え
ていません。そもそも JIS X 0212 を使える環境が整っていないようです
(Shift_JISでは無理ですし、 ISO-2022-JPにも含まれない)。


>> この辺はいずれは 
>> Unicode 3.0 に対応したマルチリンガル検索システムに拡張するのが理想
>> 的ですね (そんなにやる気が続くか疑問ですが)。
>
>この辺やりだすとそもそも「文字」とは何かなんて話になって泥沼にハマリ
>そうですねぇ…頑張ってハマってください。沼の中から足を引っ張って
>あげます(^_^;;。

Namazu的には Perl が Unicode 3.0に対応するのを待つだけですね ;-)。
何年後になるのでしょう。

# Unicode 3.0 に対応した正規表現を実現できるのか疑問ですが。


>> それから、最近はウェブの検索エンジンとして使うことをあまり考えてい
>> ないのだけど、検索結果を <A NAME="foo"> や ID の単位で出せると便利
>> かもしれません。やろうと思えばできるけど、やる気が起きない ;-)。
>
>XML で出力したりするとちょっとカッコイイかもしれません ;-)

出力形式はカスタマイズ可能にすると良さそうですね。

# Jドキュメント形式とか ;-)

--
高林 哲 Satoru Takabayashi