namazu-ml(avocado)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
wakati feature of namazu.cgi
- From: Jun Morimoto <morimoto@xxxxxxxxxxxxxxxxxxx>
- Date: Thu, 26 Nov 1998 18:43:21 +0900
- X-ml-name: namazu
- X-mail-count: 01667
こんにちは。森本と申します。
Namazu のマニュアルには、
> v1.2.0.2 からは検索時に日本語のわかち書きを自前で行うようになりまし
> た。これにより KAKASI/ChaSen を呼び出す必要がなくなり、処理速度が上
> がりました。NMZ.i を辞書の代わりに参照して実現しています。文字列の左
> から最長一致で分割しているだけです。
とありますが、たとえば
「新しいダイ・トランスファー・プリンティング・プロセスの導入によって」
という文章を含んだファイルをインデクス(with kakasi)し、
NMZ.w (および NMZ.i) にもちゃんと
ダイ
トランスファー
という単語が含まれている状態なら、namazu.cgi に「ダイトランスファー」
を投入すれば、自動的に「ダイ」「トランスファー」と分かたれて検索される、
という理解でいたのですが、これは誤りでしょうか?
Linux 2.0.36 + Namazu 1.3.0.0 で試しているのですが、
ダイトランスファー → NG
ダイ トランスファー → OK
ダイ and トランスファー → もちろん OK
という結果です。
まだコードを追っている最中なのですが、上記が私の勘違いであれば
ご指摘いただければ幸いです。
__
あと、引数に日本語文字列を与えての namazu (namazu.cgi) のデバッグは、
みなさんどのようにしていらっしゃいますか?
例えば gdb で (gdb) r 'にほんごだよ' index_dir とかすると、gdb に怒ら
れてしまって、面倒です。(Mule 2.3 で M-x gdb とかしても.)
CGI として呼び出された際の環境変数の状態を再現しておいて、という手も
あると思いますが..
.. 森本 淳 (Jun Morimoto) ...........................................
.. IMAGICA Internet Planning Bureau - `Marib' .......................
.. morimoto@xxxxxxxxxxxxxxxxxxx http://www.toybox.ne.jp/~morimoto/ ..