Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

制御コードの削除について



寺西です。

^L や ^Z といった制御コードの含まれているテキストファイルや PDF 等を
mknmz で処理するとこれらも NMZ.w に含まれています。
処理としては正しいものと思いますが、これらの制御コードを検索すること
はめったにないと思います。

NMZ.w には極力無駄な単語を登録したくない、NMZ.i のファイルサイズを
極力小さくしたいと思っているので、次のパッチを作成しました。
# 劇的に無駄が減るわけではないわけですが、千里の道も一歩からですので。

このパッチによる実害はないと思いますが、その処理には問題があるよとか、
その関数を触るよりは、別の関数で処理した方が効率が良い等、
皆様のご意見をお聞かせいただけると幸いです。

--- mknmz.in	Sat Mar  8 17:39:22 2003
+++ new/mknmz.in	Sun Mar  9 18:17:15 2003
@@ -2182,6 +2182,9 @@
 	wakati::wakatize_japanese($contref) if $kanji;
     }
 
+	# Remove control-code.
+	$$contref =~ tr/\x00-\x1f/ /;
+
     # Remove all symbols when -K option is specified.
     $$contref =~ tr/\xa1-\xfea-z0-9/   /c if $var::Opt{'nosymbol'};
 
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E