namazu-ml(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

インデックスの作り方について



インドネシアで有志による「よろずインドネシア」というページの
インデックス担当をしている 戸塚 と申します。

過去ログを簡単に検索すべく、namazu を利用させて頂いています。
検索結果で納得が行かない点がありますので質問させて頂きます。

ある助平な人?からのクレームですが「すけべ」と入力して検索する
と、結果を返してくるのですが、該当文書には「すけべ」が含まれて
いないようなのです。
どうも、「す」と「けべ」で or 検索しているようです。

従来は、過去ログをダウンロードし、そのままインデックス化をして
いましたが、インデックスの容量を小さくすべく、定型不要部分の
削除を行い、ついでに検索結果のタイトルを表示させるためにヘッ
ダー(<head><title>標題</title></head>)のみを残し、その他の
html 書式は完全に無視して、全てのタグ、改行までも外した上で
インデックスの作成を行っています。

この元文書がhtml書式になっていない事が、問題なのでありましょうか?

インデックス作成時のコマンドは、
mknmz -D -K -u -W -O C:\usr\local\namazu\index\za d:\yorozu\
です。

サイトは、http://www.yorozu.indosite.org/bbs/wwwboard.shtml
表紙は、bbs以降を落としたもので、サーチは表紙からもこの掲示板
からも入れます。

「すけべ」での検索結果は、以下の通りです。

aj: 5: [ す: 5 ] [ けべ: 0 ]
ia: 0: [ す: 28 ] [ け: 1 ] [ べ: 1 ]
ra: 32: [ す: 32 ] [ けべ: 0 ]
検索式にマッチする 37 個の項目が見つかりました。

ただ、raの該当の文をwordパッドで読み込み、「すけべ」で検索しても
該当無しになります。

なお、上記 aj、ia、raは検索のページの以下の項目に該当します。

掲示板・過去の発言(1999年12月13日〜2000年1月6日まで)
 ◎よろず医療相談・過去の発言(1999年 6月1日〜1999年10月25日)
 ◎バリ島案内・過去の発言・・・・(1999年 7月16日〜1999年12月9日)

以上、長文になってしましましたが、アドバイスを頂ければ幸いです。

戸塚@インドネシア5年目、ソフトはダメ、力仕事のみ担当