Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: filter/macbinary.pl試用結果



寺西です。

Tadamasa Teranishi wrote:
>  
> "Sakuma,Hiroaki" wrote:
> >
> > ついでと言っては何ですが,この正規表現でXHTMLタグも消えるのでしょうか?
> > 例えば,
> >
> > <br/>
> > や
> > <br />
> > といったタグにはマッチしないと思います.前に気になってバグとして報告した気が
> > しますが,対応されてないですよね?
> 
> Namazu は XHTML には正式対応していないので...って話ではないかと
> 思います。

ここで、XHTML の正式対応について書いたので、
> XHTML 用フィルタを用意するのが良いのかですね。
> filter/hdml.pl があるので、別フィルタを用意した方が良いのかも
> しれません。
という話をしていますが、横道にそれていました。それで誤解が生じまし
たかね。

これはより厳密に XHTML 対応する場合の話です。XHTML で得られう情報
等を積極的に使えるようにするとか、いろいろ妄想しています。

# で、ちょっと話がかみあわなかったかな。

一方、空要素の <meta />, <br />, <hr />, <img /> といった、XHTML 
タグについては、W3C の仕様書で後方互換性を保つ為に示されているもの
で、HTML 解釈ブラウザのためにそう書くことになっています。
# HTML として正しいのかどうか疑問だが、HTML 解釈ブラウザでは
# 正しく認識するのでしょう。

このため、HTML を解釈する部分ではこれらのタグに対応しておかない
といけないのは確かです。(これを解釈しないからといって、たぶんバグ
とは言えないとは思いますが、実用的ではないでしょう。)

この空要素のタグに対応することについては、html.pl で対応する
のに異論はありません。
この空要素のタグに対応するためだけに XHTML 用フィルタを用意する
べきだというつもりもありませんし、そういう意図で、XHTML フィルタ
を用意した方が良いかなという話をしていたわけでもありません。
空要素のタグとは別にXHTML にもう少しきちんと対応する場合の話を
していました。

# 主題から離れたところの話を進めてしまって、誤解を生じさせていた
# かもしれません。すみません。

なお、タグを削除する処理以外にも、タグを解釈している部分でも対応
しないといけないのですが、現状では <img/> といったスペースを含まない
ものでも解釈してそうですね。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E