Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: filter/macbinary.pl試用結果



佐久間です.



こちらはコメントの削除側で対応してはどうでしょうか?
多分,HTMLの規格に沿って,

<!-- (--以外) -->

を削除しているのだと思いますが,これに加え,

<!\[[^>]*\]>

も消します.
あるいは,一発で書くとなると,

    # remove all elements
    $$contref =~ s!</?(([A-Z]\w*)[\:\[]*\w*(?:\s+[A-Z]\w*(?:\s*=\s*(?:(["']).
*?\2|[\w\-.]+))?)*|(!)\[[^>]*\])\s*>!element_space($2 . $6)!gsixe;

で一応削除されます.
<![xxx]>

なら,element_space("!") が呼ばれます.



> 寺西です。
> 
> "Sakuma,Hiroaki" wrote:
> > 
> >     # remove all elements
> >     $$contref =~ s!</?([A-Z]\w*)[\:\[]*\w*(?:\s+[A-Z]\w*(?:\s*=\s*(?:(["'
> > ]).
> > *?\2|[\w\-.]+))?)*\s*>!element_space($1)!gsixe;
> > 
> > でどうでしょうか?
> > <o:p></o:p>
> > なら,element_space("o") が呼ばれます.
> 
> 文書のフォントの情報、"o"、"v"、"w"、"x"、"p" は削除できるようですが、 
> <![if !supportEmptyParas]> <![endif]> は残りますね。
> ("!" が ([A-Z]\w*) にマッチしないので。)



=== Sakuma,Hiroaki =======================================================
BEETAS.org          www.beetas.org      sakuma@xxxxxxxxxx
Webmin-JP           jp.webmin.com       sakuma@xxxxxxxxxxxxx
Waseda Univ CS                          sakuma@xxxxxxxxxxxxxxx
=== "There's More Than One Way To Do It" =================================