Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 長い単語の排除



小舞です。

Tadamasa Teranishi さんは書きました:
>> なんとなく結論はつきつつあるみたいですが、
>
>はい。ほぼ結論はでてますね。
>元々 $WORD_LENG_MAX で設定できるわけですから、128 が長いと思えば、
>個人的に数値を小さくすればよかっただけのことでした。
># 不覚にも気づかなかった。お騒がせしました。
>
>デフォルトが 128 で良いのかというところは議論の余地はありますが、
>デフォルトを 30 にするのには無理がありそうですね。
>(30 にするなら、別の条件付けが必要。)

自分の電子メールをなまず化した時の、単語の長さの頻度分布を
調べてみました。参考ともなんともならないかもしれませんが。。
(対象ファイル:約2万個です)
http://www.stellar.ac/%7ekomai/software/namazu/research/05/index.html

この結果、80文字長さ(byte)以上の頻度は、少なそうです。
もちろん、対象ファイル群で、いろいろ違ってくるとは思いますが。。