Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 長い単語の排除



寺西です。

kp wrote:
> 
> 分かち書きで、KAKASIは、ひらがなに弱いということがあったと思います。
> 
> ひらがなばかりで続くような、文章でも大丈夫でしょうか?

ご意見ありがとうございます。

今のところ アルファベット+数字+記号(つまりは半角文字)を対象として
考えていますが、その記述は抜けてましたね。

それはそうとして、
ひらがなを含めると、15 文字以上だと排除されてしまうわけですが、
こちらはまずいということでしょうか。
ちょっと NMZ.w をみてみると 15 文字以上のひらがなは結構入って
いますね。単語検索しないまでも、正規表現で検索した時に漏れるのは
確かにまずいかもしれません。

今回の趣旨はゴミを排除することですので、半角文字列で構成された
30 文字以上のものを排除するので十分だと思っています。
偶然、全角文字を含むゴミもあるでしょうが、それは排除できなくても
まぁいいかなと思っています。

また、既知の以下の正しい単語についてだけは、排除しないように
しようかと方針変更を考えています。

> 最も長い英単語で知られるのは、“floccinaucinihilipilification”
> ですが、他にも
>  “supercalifragilisticexpialidocious”
>  “pneumonoultramicroscopicsilicovolcanoconiosis”
>  “Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch”

引き続きご意見をいただければ幸いです。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E