Namazu-win32-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
HTML化されたOffice文書のタグ抜き方法は?
- From: "kc-satou" <kc-satou@xxxxxxxxxxxxxxxxx>
- Date: Wed, 20 Nov 2002 12:39:48 +0900
- X-ml-name: namazu-win32-users-ja
- X-mail-count: 01534
kc-satouです。
MS-OFFICE文書を「名前を付けて保存→webページHTML形式」で保存し、
officeによって自動作成されたHTMLファイルをインデクス化すると、
下記のごとく<body></body>間のタグをことごとく拾ってしまい、
NMZ.result.normalをすべて埋め尽くしてしまうのですが、
何かうまい打開策はないでしょうか?
---------------------------------
NMZ.result.normal.ja の表示例
<p:slide coordsize="720,540" colors="#FFFFFF,#000000,#808080,#000000,#00CC99,#3333CC,#CCCCFF,#B2B2B2"
masterhref="master03.xml"> <p:shaperange href="master03.xml#_x0000_s1025"/>
<![if !ppt]><p:shaper
---------------------------------