Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: 使用頻度の高い名詞と動詞を調べたい
- From: Rei FURUKAWA <furukawa@xxxxxxxxxxxx>
- Date: Wed, 13 Dec 2000 02:24:00 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 01318
- References: <3a359e87.392%jota@fa2.so-net.ne.jp>
古川です。
From: Matsubara Jota <jota@xxxxxxxxxxxxxxxx>
Subject: [namazu-users-ja] 使用頻度の高い名詞と動詞を調べたい
Date: Tue, 12 Dec 2000 12:42:12 +0900
jota> mknmz で作成したインデックスを解析して、どのような名詞と動詞が多く使用
jota> されているかを解析したいと考えていますが、少々困っています。どなたかご
jota> 教示いただけないでしょうか?
まさに、インデックスを解析したい方のために作った、nmzidx.pl というのが
pl ディレクトリにあります (ろくなドキュメントが無いのが欠点ですが…)
簡単に説明すると、
(1) まず、
require 'nmzidx.pl';
とします。
(2) インデックスのあるディレクトリを $dir としたら、
$nmz = new nmzidx($dir, 'r');
$nmz_word = $nmz->open_word; # 単語情報
として、
(3) あとは、
while (defined $nmz_word->read(\$word, \%list)){
}
とやれば、$word に単語、%list に (ファイル番号 => スコア) の組が
入っていますので、ループの中でお好きな処理をどうぞ。
参考としては、pnamazu に入っている、
tool2/search.pl
tool2/nmzview.pl
doc/nmzidx.txt
あたりを見ていただければ、と思います。
--
Rei FURUKAWA
furukawa@xxxxxxxxxxxx