Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 制御コードの削除について



<3E6AF9F9.7832CC75@xxxxxxxxxxxxxxx>の記事において
yw3t-trns@xxxxxxxxxxxxxxxさんは書きました。

>> +	# Remove control-code.
>> +	$$contref =~ tr/\x00-\x1f/ /;
>> +

  別件(具体的には File::MMagic)で control character に対する処理をした
コードを書いたことがあるのですが、「改行やタブなどは別扱いにした方がい
いのではないか」との指摘を受けて、そのように変更したことがあります。
  ということで、タブ、ESC、改行(CR, LF)を除外した以下の範囲に代えてみ
るのはどうでしょうか。

  /\x00-\x08\x0b-\x0c\x0e-\x1a/

P.S.
  報告が遅れましたが、HEAD に archive/html.pl を追加しました。
--html-split 関連を(不完全ながら)分離してあります。同様のコードを書け
ば info や tar などにも対応できると思います。
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx
	knok@xxxxxxxxxx / knok@xxxxxxxxxx