Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: html のテキスト変換について



<00ae01c1c8b7$65721430$df364a0a@kurishima>の記事において
kurisima@xxxxxxxxxxxxxxxxさんは書きました。

>> perl html.pl "元になるhtml">"出力するテキスト"
>> 
>> html.plをそのまま使用してもテキスト変換はできないのでしょうか?

  できません。

>> mknmzでは、どのようにしてhtmlを変換しているのでしょうか?

  filter/html.pl は library 的なもので、この filter() という関数を呼ぶ
ことで利用しています。

  単に html をテキスト化したいということであれば、テキストベースの web
browser (w3m や lynx など)を利用するのが簡単でお勧めです。

例:
$ w3m -dump file.html > file.txt

# HTML tag を消去する unhtml というツールもあるようですが、使ったこと
# がないのでよくわかりません。
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx
	knok@xxxxxxxxxx / knok@xxxxxxxxxx