Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 長い単語の排除



寺西です。

takesako@xxxxxxxxx wrote:
>  
> 外しているかもしれませんが、mknmzrc の設定ファイルには、
> $WORD_LENG_MAX というオプションが存在します。
> 
> デフォルトでは 128 byte より長い単語を登録しないようにしているので、

これには気づきませんでした。失礼しました。
趣旨としては同じですね。
値が 128 と私が思っている数値よりは随分と大きいだけですから。

> #
> # The max length of a word. the word longer than this will be ignored.
> #
> $WORD_LENG_MAX = 60;
> 
> と設定ファイルを書き換えて、単純に長さが 60 byte 以下の単語のみを
> インデックスに登録するようにするだけでも、かなりの効果があるのでは
> ないかと思います。

そう思います。
 
> したがって、寺西さんのアプローチとは逆の方向になりますが、
> 「$WORD_LENG_MAX を超える長さの文字列でも、許可された URLや
>  ファイルの絶対パスの形式であれば、インデックスに登録する」
> といったオプションがあると、仕様的にすっきりするのではないでしょうか?

なるほど。
 
> # 許可するフォーマットは、正規表現で指定するとか・・・

ちょっと実装が面倒かなと弱腰になったりしますが、こちらの方が
便利そうですね。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E