Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: HTML-embedded language file support
- From: Kazuhiko <kazuhiko@xxxxxxxxxxxxxxxxxxx>
- Date: Thu, 24 Jan 2002 16:54:01 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 02301
- References: <200201240724.QAA15462@ns1.eal.or.jp>
かずひこです。
At Thu, 24 Jan 2002 16:24:26 JST,
NOKUBI Takatsugu wrote:
> >> ASP,JSP,PHP,VBScript,JScript,JavaScript などといった HTML 埋め込み
> >> 型のサーバ/クライアントサイド言語のプログラムロジック記述部分を、
> >> 検索対象や要約作成対象から外すために、filter/html.pl に以下のよう
> >> な変更を加えるといいのではないかとおもうのですがいかがでしょうか。
>
> 良いのではないでしょうか。
他にも要約作成対象を容易にコントロールできるような枠組みがあってもいいよ
うに思います。現在は HTML 文書の要約作成の仕様は
| HTML は文書の構造を定義します。<h[1-6]> によって定義される文書の見出し
| の情報を利用すれば、簡単に要約のようなものを作成できます。要約は標準で
| は 200 文字に設定されています。見出しだけを集めて足りない部分は文書の
| 先頭から補います。また、対象が単なるテキストファイルだった場合には文書
| の先頭から 200 文字をそのまま使います。(tips.html)
となっていますが、ページの上や左の部分に共通のメッセージなりナビゲーショ
ンリンクなりが書かれているサイトは少なくないと思いますが、こういうケース
では要約がすべて同じ内容「トップ 製品紹介 会社概要 アクセス ...」みたい
なことになってしまい、要約としては使い物になりません。
具体的な仕様はなかなか悩ましいのですが、たとえば class="abstract" 指定が
ある部分は優先的に要約に登録するとか、逆に class="ignore" があると要約に
含めないとか、でしょうか。
# もちろん、行儀良く <h1>...</h1> とかでマークアップしてあればそちらが優
# 先されるのはわかっていますが、そうでないケースは多々あるので...