Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Namazu での検索性能向上方策に関する質問
- From: Yoshihiro Adachi <adachi@xxxxxxxxx>
- Date: Tue, 24 Apr 2001 13:02:27 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 01697
はじめまして、足立と申します。
今回初めて Namazu による検索システムの構築を行って
おりますが、検索結果に満足できずもう少し検索結果の
向上が出来ないか質問です。
MLの過去ログなども見てみましたが、解決方法が
見つからなかったのでアドバイス&ご教授をお願いします。
[質問1]
検索キーワードにある単語(下記の例では、圧縮)を入力し検索ボタンを
押したところ「検索式にマッチする文書はありませんでした。」になって
しまいました。
ちなみに部分一致検索(前方、後方、中間のいずれも)を行った場合は、
検索式にマッチする文書が検索できます。
------------------------------------------------------------------------
検索結果
参考ヒット数: { [ 圧: 0 ] [ 縮: 0 ] :: 0 }
検索式にマッチする文書はありませんでした。
検索のコツ
検索がうまくいかないときは、次の点を確認してください。
・・・・中略・・・・
・日本語がでたらめにわかち書きされてしまう
{ [ 最: 1 ] [ 新: 0 ] [ 情: 0 ] [ 報: 0 ] :: 0 } のように、でたらめ
にわかち書きされることがあります。 これは、そもそも最新情報という言
葉が検索対象に含まれない ことを意味します。検索はあきらめましょう。
------------------------------------------------------------------------
上記の例では、「圧縮」という単語自体では検索キーとしてインデックス
ファイルが作成されていないようです。
# ちなみに、Namazu を利用している他社(例えば、関西電力[http://www.kepco.co.jp/])
# のサイト内キーワード検索では「圧縮」で文書が検索できました。
色々調べたところ分かち書きに kanwadict というバイナリ形式の辞書を
利用しているようですが、その辞書を作成する元ファイルである、
kakasidict (テキストファイル)の内容を調べても「圧縮」という単語
は登録されていました。
そこで質問です。
なぜ、「圧縮」という単語でインデックスが作成されないようでしょうか?
また、単語(熟語)でのインデックスをより多く作成するにはどのようにしたら
良いのでしょうか?
[質問2]
わかち書きの問題かも知れませんが、調べたい単語を以下のように
それぞれ入力した場合、当然、検索結果(ヒット件数)に違いが生じますね。
単語 -----> 単一単語検索
*単語 --+
単語* --+--> 部分一致検索
*単語* --+
今回試した結果では、質問1の「圧縮」以外の単語でも単一単語検索を
した場合、ほとんど「検索式にマッチする文書はありませんでした。」
になってしまいました。
ちなみに部分一致検索(前方、後方、中間のいずれも)を行った場合は、
検索式にマッチする文書が検索できます。
# すなわち、検索対象となる全文書の中には相当数入力した単語要素は
# 含まれているはずなのに、単一単語検索では検索されない事が
# 多いのです。
そこで質問です。
ユーザへの利便性のため入力された単語の前後にアスタリスク
を付けて中間一致検索を自動的行うようなことが簡単に出来ない
ものでしょうか?
環境は、以下の通りです。
System: solaris
Namazu: 2.0.5
Perl: 5.006
KAKASI: 2.3.2
-----------------------------------------------------------------
◆ 足立 嘉浩 (Yoshihiro Adachi) ◆
◇ (株)電力計算センター 技術本部 技術企画室 ◇
◆ TEL: 03-3295-5751(直通) FAX: 03-3295-5753 ◆
◇ E-mail: adachi@xxxxxxxxx URL: http://www.dcc.co.jp/ ◇
-----------------------------------------------------------------