namazu-ml(ring)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
インデックスの作り方について
- From: "Totsuka Ryutaro" <totsuka@xxxxxxxxxx>
- Date: Mon, 24 Jan 2000 18:27:50 +0700
インドネシアで有志による「よろずインドネシア」というページの
インデックス担当をしている 戸塚 と申します。
過去ログを簡単に検索すべく、namazu を利用させて頂いています。
検索結果で納得が行かない点がありますので質問させて頂きます。
ある助平な人?からのクレームですが「すけべ」と入力して検索する
と、結果を返してくるのですが、該当文書には「すけべ」が含まれて
いないようなのです。
どうも、「す」と「けべ」で or 検索しているようです。
従来は、過去ログをダウンロードし、そのままインデックス化をして
いましたが、インデックスの容量を小さくすべく、定型不要部分の
削除を行い、ついでに検索結果のタイトルを表示させるためにヘッ
ダー(<head><title>標題</title></head>)のみを残し、その他の
html 書式は完全に無視して、全てのタグ、改行までも外した上で
インデックスの作成を行っています。
この元文書がhtml書式になっていない事が、問題なのでありましょうか?
インデックス作成時のコマンドは、
mknmz -D -K -u -W -O C:\usr\local\namazu\index\za d:\yorozu\
です。
サイトは、http://www.yorozu.indosite.org/bbs/wwwboard.shtml
表紙は、bbs以降を落としたもので、サーチは表紙からもこの掲示板
からも入れます。
「すけべ」での検索結果は、以下の通りです。
aj: 5: [ す: 5 ] [ けべ: 0 ]
ia: 0: [ す: 28 ] [ け: 1 ] [ べ: 1 ]
ra: 32: [ す: 32 ] [ けべ: 0 ]
検索式にマッチする 37 個の項目が見つかりました。
ただ、raの該当の文をwordパッドで読み込み、「すけべ」で検索しても
該当無しになります。
なお、上記 aj、ia、raは検索のページの以下の項目に該当します。
掲示板・過去の発言(1999年12月13日〜2000年1月6日まで)
◎よろず医療相談・過去の発言(1999年 6月1日〜1999年10月25日)
◎バリ島案内・過去の発言・・・・(1999年 7月16日〜1999年12月9日)
以上、長文になってしましましたが、アドバイスを頂ければ幸いです。
戸塚@インドネシア5年目、ソフトはダメ、力仕事のみ担当