Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
RE: 使用頻度の高い名詞と動詞を調べたい
- From: 芦川 宏 <ashikawa@xxxxxxxxxxxxxxxx>
- Date: Tue, 12 Dec 2000 13:18:18 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 01315
芦川と申します。
同様のことをやっています。ただし、名詞、形容詞ですが。
で、NMZ.iの解析には、
http://www.namazu.org/ml/namazu-dev/msg00329.html
が参考になると思います。
ただし、私が解析した限り、NMZ.iは
[エントリサイズ][文書ID][スコア][文書ID][スコア]...
となっている気がしました。
また、動詞をインデックス化するには、
usr/local/share/namazu/pl/wakati.plの56行目あたり、
$$content .= shift(@tmp) =‾ /(.+ )名詞/ ? $1 : "" while @tmp;
の部分を書き換えることで出来ると思います。
名詞または動詞だと
$$content .= shift(@tmp) =‾ /(.+ )(名詞|動詞)/ ? $1 : "" while @tmp;
てな、感じでしょうか?これで、
mknmz -m
で名詞、動詞のみのインデックスが出来ると思います。(確認はしていません。)
--
Hiroshi Ashikawa