Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: filter/macbinary.pl試用結果
- From: "Sakuma,Hiroaki" <sakuma@xxxxxxxxxx>
- Date: Mon, 12 Jan 2004 17:11:46 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 03546
- References: <4002532A.843C4DF3@asahi-net.or.jp>
佐久間です.
こちらはコメントの削除側で対応してはどうでしょうか?
多分,HTMLの規格に沿って,
<!-- (--以外) -->
を削除しているのだと思いますが,これに加え,
<!\[[^>]*\]>
も消します.
あるいは,一発で書くとなると,
# remove all elements
$$contref =~ s!</?(([A-Z]\w*)[\:\[]*\w*(?:\s+[A-Z]\w*(?:\s*=\s*(?:(["']).
*?\2|[\w\-.]+))?)*|(!)\[[^>]*\])\s*>!element_space($2 . $6)!gsixe;
で一応削除されます.
<![xxx]>
なら,element_space("!") が呼ばれます.
> 寺西です。
>
> "Sakuma,Hiroaki" wrote:
> >
> > # remove all elements
> > $$contref =~ s!</?([A-Z]\w*)[\:\[]*\w*(?:\s+[A-Z]\w*(?:\s*=\s*(?:(["'
> > ]).
> > *?\2|[\w\-.]+))?)*\s*>!element_space($1)!gsixe;
> >
> > でどうでしょうか?
> > <o:p></o:p>
> > なら,element_space("o") が呼ばれます.
>
> 文書のフォントの情報、"o"、"v"、"w"、"x"、"p" は削除できるようですが、
> <![if !supportEmptyParas]> <![endif]> は残りますね。
> ("!" が ([A-Z]\w*) にマッチしないので。)
=== Sakuma,Hiroaki =======================================================
BEETAS.org www.beetas.org sakuma@xxxxxxxxxx
Webmin-JP jp.webmin.com sakuma@xxxxxxxxxxxxx
Waseda Univ CS sakuma@xxxxxxxxxxxxxxx
=== "There's More Than One Way To Do It" =================================