Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 特定の領域をインデックスからはずしたい



廣瀬と申します。

At Mon, 16 Feb 2004 01:49:16 +0900,
Tadamasa Teranishi wrote:

> > きちんと検索対象となる単語が完全にインデックス化されませんでした。
> > どちらかというと
> > <!-- BODY --><!-- /BODY -->
> > でくくってるにもかかわらず検索対象外になる語が多かったのです。
 
> > > それを改良すれば、インデックスの対象範囲を限定することができる
> > > でしょう。(ただし、HTML はインデックス対象となる部分をしめす


ご希望の動作かどうかわかりませんが、html内で指定した部分を
インデックす対象に設定、もしくは除外するようなパッチを作ってみました。

以下のパッチを html.plに適用して, .mknmzrc内で
$EXCLUDE_PATと$INDEX_PAT を追加してください。
追加されたディレクティブでは 指定するタグを *正確に* 記述してください。

$EXCLUDE_PAT は 指定された開始タグと終了タグに挟まれた部分を
インデックス範囲から除外します。

$INDEX_PAT は指定された開始タグと終了タグに挟まれた部分のみを
インデックス範囲となります。
パタンマッチしてるだけなのでタグのエレメントはなんでもかまわないのですが、
<div></div>ではさみ、、divエレメントにname属性を指定するのが好ましいと
思います。

$EXCLUDE_PAT = "<div align='center' name='index'>(.*?)</div>";

$INDEX_PAT = "<div align='center' name='index'>(.*?)</div>";

*注意*
1) こんな時間に やっつけで作っていますので、両方をいっしょに使うと
   良くないことが起こるかもしれません。

2) 古いhtml.plにはパッチが当たらないと思います。その場合は手作業でお願いします。

3) 希望通りに動かなくても,怒らないでください。

4) 元の html.plはバックアップしておくと幸せになれます。

----
HIROSE, Yoshihide

Attachment: html.pl.diff
Description: Binary data