namazu-ml(avocado)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

wakati feature of namazu.cgi

From: Jun Morimoto <morimoto@xxxxxxxxxxxxxxxxxxx>
Date: Thu, 26 Nov 1998 18:43:21 +0900
X-ml-name: namazu
X-mail-count: 01667

こんにちは。森本と申します。

Namazu のマニュアルには、

> v1.2.0.2 からは検索時に日本語のわかち書きを自前で行うようになりまし
> た。これにより KAKASI/ChaSen を呼び出す必要がなくなり、処理速度が上
> がりました。NMZ.i を辞書の代わりに参照して実現しています。文字列の左
> から最長一致で分割しているだけです。

とありますが、たとえば

「新しいダイ・トランスファー・プリンティング・プロセスの導入によって」

という文章を含んだファイルをインデクス(with kakasi)し、
NMZ.w (および NMZ.i) にもちゃんと

ダイ
トランスファー

という単語が含まれている状態なら、namazu.cgi に「ダイトランスファー」
を投入すれば、自動的に「ダイ」「トランスファー」と分かたれて検索される、
という理解でいたのですが、これは誤りでしょうか?

Linux 2.0.36 + Namazu 1.3.0.0 で試しているのですが、

ダイトランスファー      → NG
ダイ トランスファー     → OK
ダイ and トランスファー → もちろん OK

という結果です。

まだコードを追っている最中なのですが、上記が私の勘違いであれば
ご指摘いただければ幸いです。
__

あと、引数に日本語文字列を与えての namazu (namazu.cgi) のデバッグは、
みなさんどのようにしていらっしゃいますか?

例えば gdb で (gdb) r 'にほんごだよ' index_dir とかすると、gdb に怒ら
れてしまって、面倒です。(Mule 2.3 で M-x gdb とかしても.)
CGI として呼び出された際の環境変数の状態を再現しておいて、という手も
あると思いますが..

.. 森本 淳 (Jun Morimoto) ...........................................
.. IMAGICA Internet Planning Bureau - `Marib' .......................
.. morimoto@xxxxxxxxxxxxxxxxxxx http://www.toybox.ne.jp/~morimoto/ ..

Follow-Ups:
- Re: wakati feature of namazu.cgi
  - From: Satoru Takabayashi

Prev by Date: Re: Non wakatigaki
Next by Date: Re: wakati feature of namazu.cgi
Previous by thread: Re: HTML detection
Next by thread: Re: wakati feature of namazu.cgi
Index(es):
- Date
- Thread