Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
長い単語の排除
- From: Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx>
- Date: Fri, 14 Mar 2003 15:30:19 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 02744
寺西です。
NMZ.w には極力無駄な単語を登録したくない、NMZ.i のファイルサイズを
極力小さくしたい第2段として、長い単語の排除を考えています。
NMZ.w をみていると、無意味な長い文字列が登録されていることがあります。
おそらくは uuencode したテキストの一部とかではないかと思いますが、
出所元は特定できていません。
また、"---------------------------------------------" のようなものも
登録されていることがあります。(後者は -K で削除されるようですが。)
これらを意図して検索することは皆無と思われますので、mknmz で排除
してもよいものと思います。
最も長い英単語で知られるのは、“floccinaucinihilipilification”
ですが、他にも
“supercalifragilisticexpialidocious”
“pneumonoultramicroscopicsilicovolcanoconiosis”
“Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch”
などがあるようです。
http://www.sanseido.net/Main/patio/patio03.html
実質、“floccinaucinihilipilification”より長い正しい単語があった
としても、それを検索することは少ないでしょうし、それを検索したい
人には申し訳ないですが、検索できなかったとしてもあまり困らない
ものと思います。
長い単語は、かなり高い確率で、無意味な文字列であると考えることが
できるかと思います。
ということで、デフォルトで 30 文字以上の単語は排除するというルール
の追加はいかがでしょう。(パラメータで値を変更できなくても、ヘッダ
で値を定義するような形で十分だと思っています。カスタマイズしたい人
は、#define した値を変更してもらえばいいわけですし。)
みなさまに支持されれば、パッチでも作ろうかと思っています。
私の気づかない懸念事項などがあるかもしれませんので、みなさまの
ご意見お聞かせいただけると幸いです。
# 劇的に無駄が減るわけではないわけですが、千里の道も一歩からですので。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E