Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: 長い単語の排除
寺西です。
"Komai @home" wrote:
>
> 実は、NMZ.wファイル中で、
>
> http://www.stellar.ac/%7ekomai/software/namazu/research/05/index.html
> で、文字列長さを72としたとき、以下のような記号と、
> BASE64らしき記号がありました。
拝見させていただきました。非常に興味深い結果です。参考になります。
長さ1 の ASCII文字とゴミ に関しては、もしゴミが制御コードならば
stable-2-0 で排除できるようになっています。
長さ36 の カタカナ語 に関しては、本当に意外ですね。
長さ72,76 の Base64 っぽい記号 に関しては、削除したいですね。
長さ128 の URL系 に関しては、128以上のものが打ち切られている可能性
もあるので、何らかの特別な対策が必要ではないかと思いました。
128文字以上の URL もきちんと扱えるようにするのか、URL は排除する
のか。文字列の長さに関わらず同じ動作になるのが良いように思います。
また、日本語ドメインを考えると同じ動作を行うのは難しいような
気もします。
> 明らかに、無意味なBASE64コードは消したいのですが。。
そう思います。
> 例1 BASE64らしき記号
> kqwaacomaaardaaalawaac0maaaudaaalwwaadamaad9/f39/f39/f39/f39/f39/f39/f39
"kqwaacomaaard*" 等で検索して元ファイルを特定すると、元ファイルが
どういった形式のファイルなのかが分かると思います。
もしかすると、そのファイルの処理にバグがあり、デコードできていない
のかもしれません。
> 例2 単なる記号?
こちらについては、全角記号を削除するオプションを考えています。
-K オプションの全角バージョンのようなものです。ただし、連続して
何文字以上続く場合といった数を指定できるようになっていると良いのでは
ないかと思っています。現在、仕様を検討中で、削除対象文字の選別を
行っています。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E