Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: 長い単語の排除
- From: "Komai @home" <GFH05144@xxxxxxxxxxx>
- Date: Wed, 19 Mar 2003 02:05:13 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 02764
- References: <3E72CCAF.401F10C3@asahi-net.or.jp>
小舞です。
Tadamasa Teranishi さんは書きました:
>> なんとなく結論はつきつつあるみたいですが、
>
>はい。ほぼ結論はでてますね。
>元々 $WORD_LENG_MAX で設定できるわけですから、128 が長いと思えば、
>個人的に数値を小さくすればよかっただけのことでした。
># 不覚にも気づかなかった。お騒がせしました。
>
>デフォルトが 128 で良いのかというところは議論の余地はありますが、
>デフォルトを 30 にするのには無理がありそうですね。
>(30 にするなら、別の条件付けが必要。)
自分の電子メールをなまず化した時の、単語の長さの頻度分布を
調べてみました。参考ともなんともならないかもしれませんが。。
(対象ファイル:約2万個です)
http://www.stellar.ac/%7ekomai/software/namazu/research/05/index.html
この結果、80文字長さ(byte)以上の頻度は、少なそうです。
もちろん、対象ファイル群で、いろいろ違ってくるとは思いますが。。