Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: tfidf and simple



kawato@xxxxxxxxxxxxxxxx (川戸勝史) wrote:

>> ## Scoring: Set the scoring method "tfidf" or "simple".
>
>tfidfとsimpleの具体的な違いというかご利益というものがどこにも書か
>れていない気がします。もちろん、ソースを眺めると何となく分からんで
>もないのですが、できれば、どういう場合に使い分ければいいのかを教え
>ていただけると助かります。

基本的に常に tfidf を使えばいいです。この Scoring という設定
項目は廃止しようと考えていたところです。

v1.3.0.11 のマニュアルには次のように書かれています。2.0 のマ
ニュアルにはありません。

  アンド/オア検索時のスコア計算
  
    tf idf法によるスコアの計算
    
   v1.1.2.2からはtf idf法によるスコア計算を実装しました。 これは与えられた
   キーワードが2つ以上あるときに用いられます。
   
   計算式は
     * tf = 文書に含まれるキーワードの出現回数
     * N = 全文書数
     * n = キーワードが含まれる文章の数
     * idf = log(N/n) (Inverse Document Frequency)
     * スコア = tf * idf
       
   のようになっています。これにより多くの文書に含まれるキーワードには 低い
   スコアがつき、そのキーワードを含む文書が少ない場合には高いスコ アがつく
   ことになります。
   
    従来のスコアの計算
    
   A という単語と B という単語をアンドまたはオア検索した場合、それぞ れの
   単語のスコアを元にスコアの再計算を行います。具体的には、アンド のときは
   A と B を比べてスコアの小さい方を、 オアのときは A と B の大きい方を新
   しいスコアとして採用します。例えば "THE BEATLES" と いうキーワードでア
   ンド検索をかけた場合、 "THE" の方のスコアはほと んど意味がないため、小
   さい方のスコアを重視します。

-- Satoru Takabayashi