Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 長い単語の排除



寺西です。

Tadamasa Teranishi wrote:
> 
> 今回の趣旨はゴミを排除することですので、半角文字列で構成された
> 30 文字以上のものを排除するので十分だと思っています。
> 偶然、全角文字を含むゴミもあるでしょうが、それは排除できなくても
> まぁいいかなと思っています。

半角文字と全角文字が混ざった単語は登録されそうにないですね。
さすがにそれは分割されるようです。

そうすると、全角文字15文字以上のもので、それがゴミである確率は
かなり小さく、15文字以上でもそれは意味のある単語とみなせます。
ですので、排除する必要はなさそうです。

ということで、全角の単語はそのまま、半角の単語は 30 文字以上
排除ということで考えてください。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E