Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: 制御コードの削除について
寺西です。
Tadamasa Teranishi wrote:
>
> > >> しかし、野首さんのコードで目的の制御コードを取り除くことができます
> > >> ので、安全のためタブ、ESC、改行(CR, LF)を排除しない方針でいきます。
> >
> > もう少し考えてみたのですが、wakatize する前に除去した方が、外部から
> > のアヤシゲな data を排除できて良いかもしれません。
pdftotext の処理の後には ~L が入っているようですし、その他の外部
プログラムの出力結果には制御コードが入ることも予想されます。
このため、制御コードを排除するように修正し、commit しました。
また、制御コードの排除は、wakatize 前に行うようにしました。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E