Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 長い単語の排除



寺西です。

GAKU Takemura wrote:
> 
> 2003年03月14日(金) 15時30分頃、
> yw3t-trns@xxxxxxxxxxxxxxxさんは書きました。
> 
> >最も長い英単語で知られるのは、“floccinaucinihilipilification”
> >ですが、他にも
> >  “supercalifragilisticexpialidocious”
> >  “pneumonoultramicroscopicsilicovolcanoconiosis”
> >  “Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch”
> >などがあるようです。
> >http://www.sanseido.net/Main/patio/patio03.html
> 
> なんとなく結論はつきつつあるみたいですが、

はい。ほぼ結論はでてますね。
元々 $WORD_LENG_MAX で設定できるわけですから、128 が長いと思えば、
個人的に数値を小さくすればよかっただけのことでした。
# 不覚にも気づかなかった。お騒がせしました。

デフォルトが 128 で良いのかというところは議論の余地はありますが、
デフォルトを 30 にするのには無理がありそうですね。
(30 にするなら、別の条件付けが必要。)

> まぁなかば余談として、
> 
> supercalifragilisticexpialidocious (34文字) は、
> ディズニーのミュージカル映画「メアリーポピンズ」で
> 延々何度も何度も連呼される有名な単語です。
> このお話の中で作られた無意味な造語なので、
> たしかに「意味はない」のですけど、
> 例えばもしデフォルト30文字で切ってしまって、
> 検索できないと、困る人はたくさんいるんじゃないかなぁ。

# ディズニーファンが全体のどれくらいかという話は横においておいて。

リストアップしたものは、長いということで有名な単語ですから、
これはそれだけで意味のある単語だと思います。
ですので、途中で

> また、既知の以下の正しい単語についてだけは、排除しないように
> しようかと方針変更を考えています。

と条件を緩和しました。また、複合単語については予見不可能ですので、

> なお、30文字以上の半角文字列で数値、記号が含まれる場合に排除という
> ように、少し条件を緩和しようかとも思います。

のようにやや排除する条件を変更して対応しようかとは思っていました。

ですが、無条件とはいえ .namazurc の $WORD_LENG_MAX で単語の最大長が
指定できると分かった今では、わざわざ実装する価値が見出せず、
熱がさめつつあります。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E