Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
制御コードの削除について
- From: Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx>
- Date: Sun, 09 Mar 2003 17:23:21 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 02727
寺西です。
^L や ^Z といった制御コードの含まれているテキストファイルや PDF 等を
mknmz で処理するとこれらも NMZ.w に含まれています。
処理としては正しいものと思いますが、これらの制御コードを検索すること
はめったにないと思います。
NMZ.w には極力無駄な単語を登録したくない、NMZ.i のファイルサイズを
極力小さくしたいと思っているので、次のパッチを作成しました。
# 劇的に無駄が減るわけではないわけですが、千里の道も一歩からですので。
このパッチによる実害はないと思いますが、その処理には問題があるよとか、
その関数を触るよりは、別の関数で処理した方が効率が良い等、
皆様のご意見をお聞かせいただけると幸いです。
--- mknmz.in Sat Mar 8 17:39:22 2003
+++ new/mknmz.in Sun Mar 9 18:17:15 2003
@@ -2182,6 +2182,9 @@
wakati::wakatize_japanese($contref) if $kanji;
}
+ # Remove control-code.
+ $$contref =~ tr/\x00-\x1f/ /;
+
# Remove all symbols when -K option is specified.
$$contref =~ tr/\xa1-\xfea-z0-9/ /c if $var::Opt{'nosymbol'};
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E