Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: tfidf and simple
- From: Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx>
- Date: Thu, 06 Apr 2000 17:08:59 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 00228
- References: <16244.955007684@ib.nis.nec.co.jp>
kawato@xxxxxxxxxxxxxxxx (川戸勝史) wrote:
>> ## Scoring: Set the scoring method "tfidf" or "simple".
>
>tfidfとsimpleの具体的な違いというかご利益というものがどこにも書か
>れていない気がします。もちろん、ソースを眺めると何となく分からんで
>もないのですが、できれば、どういう場合に使い分ければいいのかを教え
>ていただけると助かります。
基本的に常に tfidf を使えばいいです。この Scoring という設定
項目は廃止しようと考えていたところです。
v1.3.0.11 のマニュアルには次のように書かれています。2.0 のマ
ニュアルにはありません。
アンド/オア検索時のスコア計算
tf idf法によるスコアの計算
v1.1.2.2からはtf idf法によるスコア計算を実装しました。 これは与えられた
キーワードが2つ以上あるときに用いられます。
計算式は
* tf = 文書に含まれるキーワードの出現回数
* N = 全文書数
* n = キーワードが含まれる文章の数
* idf = log(N/n) (Inverse Document Frequency)
* スコア = tf * idf
のようになっています。これにより多くの文書に含まれるキーワードには 低い
スコアがつき、そのキーワードを含む文書が少ない場合には高いスコ アがつく
ことになります。
従来のスコアの計算
A という単語と B という単語をアンドまたはオア検索した場合、それぞ れの
単語のスコアを元にスコアの再計算を行います。具体的には、アンド のときは
A と B を比べてスコアの小さい方を、 オアのときは A と B の大きい方を新
しいスコアとして採用します。例えば "THE BEATLES" と いうキーワードでア
ンド検索をかけた場合、 "THE" の方のスコアはほと んど意味がないため、小
さい方のスコアを重視します。
-- Satoru Takabayashi