namazu-ml(avocado)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: tfidf (Re: current problems of Namazu)
高林です
Hajime BABA <baba@xxxxxxxxxxxxxxxxxxxxxx> wrote:
>>>・スコアリングを tf・idf 値にできないか?
>>うーん、私自身が正しく tf・idf 法を理解しているかアヤシイので誤解
>>しているかもしれませんが、
>
>>tf は単語の出現回数をそのまま使えばいいんですよね。
>
>そうです。
># tf は Term Frequency の略です。
>
>>で、idf を求めるにはそのキーワードを含むファイルの数を
>>全文書数で割ってそれの対数をとると。
>
>逆です。idf = log(N/n) で、N は全文書数、n がそのキーワードを含む
>ファイル数です。そうすると idf >= 0 になります。
># idf は Inverse Document Frequency の略です。
(snip)
ごめんなさい、逆でしたね。
詳しい解説ありがとうございます。
>N と tf はすぐわかるのですが、n がコストをかけずにすぐにわかるのか
>な?とおもったのです。ちょろっと見ただけではアレだったのですが、わ
>かるのなら導入しても良いかとおもいます。
n はすぐに求まります (malloc する時に必要だし) ので、 idf を一度求
めて、あとは tf とかけ算していくだけでなら、そんなに計算量としても
コストはかからないように思われます。あとで実装してみます。
「スコアは tf・idf 法で計算されます」なんてことを書いておくと本格
的な感じで格好良いですね:-)。
P.S.
過去のメールは namazu-ctl@xxxxxxxxxxxxxxxxxxxxx へ本文に
# mget 1-last
と書いたメールを送ると折り返し tar + gz のファイルが uuencode され
て送られてきます。
--
高林 哲 Satoru Takabayashi