Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: 長い単語の排除
寺西です。
"Komai @home" wrote:
>
> 自分の電子メールをなまず化した時の、単語の長さの頻度分布を
> 調べてみました。参考ともなんともならないかもしれませんが。。
...
> この結果、80文字長さ(byte)以上の頻度は、少なそうです。
ありがとうございます。実に参考になります。
この結果で興味を持ったのは 80 近辺でピークが 2 つあるところです。
この文字列は
A. 意味のある有効な2種類の文字列が存在する。
B. 2種類のゴミデータが存在する。
C. 意味のあるデータとゴミデータが混在して存在する。
のどれにあたるのだろうかということです。
> 多分、URLとかのせいでしょう。
# とコメントされていますが。
A ならば、その2種類の元データは何であるかが興味深いところです。
B ならば、まさにこの2つのピークを削除したいというのが、元々の
発端です。(多少、有効なデータを犠牲にしても)
C ならば、無条件で文字の長さで削除するというのが、不適切である
という証明になります。
この2つのピークのデータの特徴をうまく掴むことで、処理ルーチンを
いろいろと考えることができるのではないかと思います。
> もちろん、対象ファイル群で、いろいろ違ってくるとは思いますが。。
そうですね。できればいろんなジャンルのデータで、グラフを比較
してみたいですね。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E