Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 制御コードの削除について



寺西です。

Tadamasa Teranishi wrote:
> 
> > >> しかし、野首さんのコードで目的の制御コードを取り除くことができます
> > >> ので、安全のためタブ、ESC、改行(CR, LF)を排除しない方針でいきます。
> >
> >   もう少し考えてみたのですが、wakatize する前に除去した方が、外部から
> > のアヤシゲな data を排除できて良いかもしれません。

pdftotext の処理の後には ~L が入っているようですし、その他の外部
プログラムの出力結果には制御コードが入ることも予想されます。
このため、制御コードを排除するように修正し、commit しました。
また、制御コードの排除は、wakatize 前に行うようにしました。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E