Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [Q] Any TIPS about wakatizing and indexing?



答えとしては「素直に index を作っている」です。
逆にそうじゃないと不都合がある場合があります。

>このように、「は」「☆」「で」「す」など、ふつうは役に立たない
>ようなものも含まれます。
単純な話この部分を捨てちゃったら
{ オブジェクト 指向 スクリプト 言語 ☆ で す 。}
という文章中に存在するはずのフレーズで検索
(こういう順番で語が出現する文章を検索するという意味)
できなくなってしまいます。
これがあると無いとでは検索の結果の質が結構変わります。
(より狙ったとおりの検索結果が得られる)
「つのだ☆ひろ」とか

ただたいていの場合は検索に用いるキーワードとして
「名詞の単語」を用いる場合が多いので、
オプション「-m」のように名詞だけをキーワード
として抽出してインデックスを作る方法もあります。
(使ったことは無いですkakasiなんで)

現在は品詞情報の利用としては名詞だけのようです。
品詞の取捨選択を本格的にやるとしたら
捨てるというより重みを適切に調節すればより質のよい
検索結果が得られるものと思います。