Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: filter/macbinary.pl試用結果
こんにちは.佐久間です.
# remove all elements
$$contref =~ s!</?([A-Z]\w*)[\:\[]*\w*(?:\s+[A-Z]\w*(?:\s*=\s*(?:(["']).
*?\2|[\w\-.]+))?)*\s*>!element_space($1)!gsixe;
でどうでしょうか?
<o:p></o:p>
なら,element_space("o") が呼ばれます.
> 臼田です
>
> ブラウザの仕様を期待して拡張タグを使う行為を正しいというかどうかは別
> として、
> インデックスデータとしてはゴミデータ(と思われる)となるでしょうから
> ブラウザの表示の動作と同様に、未知のタグは全部消してしまうのがよい
> はずです、このタグはfilter/html.plのremove_html_elements()でマッチ
> せずに残ってしまうようですね。
>
> # remove all HTML elements. it's not perfect but almost works.
> sub remove_html_elements ($) {
> my ($contref) = @_;
>
> # remove all elements
> $$contref =~ s!</?([A-Z]\w*)(?:\s+[A-Z]\w*(?:\s*=\s*(?:(["']).*?\2|[\w\
> -.]+))?)*\s*>!element_space($1)!gsixe;
>
> }
> ":"や"["がタグの中に入っているのでマッチしないのかなと思うのですが
> うかつに触るとエンバグしそうな正規表現なのでどなたかアドバイスを。
=== Sakuma,Hiroaki =======================================================
BEETAS.org www.beetas.org sakuma@xxxxxxxxxx
Webmin-JP jp.webmin.com sakuma@xxxxxxxxxxxxx
Waseda Univ CS sakuma@xxxxxxxxxxxxxxx
=== "There's More Than One Way To Do It" =================================