Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: rtf.pl commitしました。
寺西です。
Yukio USUDA wrote:
>
> > テキスト出力ではなくて、html 出力なのでフィルタを作るのは少し面倒
> > そうです。変換後、html の処理を行うよりは、rtf2html を改造して
> > rtf2text を作る方が楽そうに思いました。(ソースも 1つだけだし。)
コメントアウトするだけなので、簡単にテキスト出力するプログラムは
作れましたが、これそのまま公開はさすがにまずいでしょうね。
# パッチなら大丈夫かな。だが、それは使う側が不便。うーむ。
> 先日作ったooo.plで全部のタグを消すために
> sub remove_all_tag ($) というものを入れています。
> 単純な処理し貸していませんがここを通せばタグは消せます。
おお。すばらしい。
> 本来せっかくついているタグなので重み付けに用いる情報を取得すべきですが
> rtf2htmlが出すタグはbodyとpだけのようなので消してしまえばよいでしょう
> お試しください。
そうですね。他のフィルタ同様、ばっさり消すので良いかと思います。
ヘッド部分以外のタグは b,i,u,p,br,h? タグぐらいですね。
横道にそれますが、将来的にはフィルタ内で HTML が得られたら、
通常の HTML の処理ルーチンに渡すような簡単な仕組みが必要なので
しょうね。
> また、元の文章に'<'等が入っているとエンコードをしているようなので
> sub decode_entity ($)
> を通してデコードすればよいでしょう。
はい。しっかり、'<','>','&' はエンコードされていました。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E