Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: 長い単語の排除
寺西です。
kp wrote:
>
> 分かち書きで、KAKASIは、ひらがなに弱いということがあったと思います。
>
> ひらがなばかりで続くような、文章でも大丈夫でしょうか?
ご意見ありがとうございます。
今のところ アルファベット+数字+記号(つまりは半角文字)を対象として
考えていますが、その記述は抜けてましたね。
それはそうとして、
ひらがなを含めると、15 文字以上だと排除されてしまうわけですが、
こちらはまずいということでしょうか。
ちょっと NMZ.w をみてみると 15 文字以上のひらがなは結構入って
いますね。単語検索しないまでも、正規表現で検索した時に漏れるのは
確かにまずいかもしれません。
今回の趣旨はゴミを排除することですので、半角文字列で構成された
30 文字以上のものを排除するので十分だと思っています。
偶然、全角文字を含むゴミもあるでしょうが、それは排除できなくても
まぁいいかなと思っています。
また、既知の以下の正しい単語についてだけは、排除しないように
しようかと方針変更を考えています。
> 最も長い英単語で知られるのは、“floccinaucinihilipilification”
> ですが、他にも
> “supercalifragilisticexpialidocious”
> “pneumonoultramicroscopicsilicovolcanoconiosis”
> “Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch”
引き続きご意見をいただければ幸いです。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E