Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

使用頻度の高い名詞と動詞を調べたい



松原と申します。

mknmz で作成したインデックスを解析して、どのような名詞と動詞が多く使用
されているかを解析したいと考えていますが、少々困っています。どなたかご
教示いただけないでしょうか?

使われている単語の頻度を調べるには、NMZ.w と NMZ.i をコンビネーション
で使えば多分うまくいきそうだということで NMZ.i に対して perl で 
unpack( 'N', $_ ); としてみたのですが、途切れのない数字の羅列が表示さ
れ、内容の検討がつきません。
http://www.namazu.org/doc/nmz.html.ja#i によると NMZ.i は
[単語1を含む文書の総数 * 2][文書ID][スコア][文書ID][スコア]...
という順序で数字が並んでいるはずなのですが… pack されたデータを 
unpack するには、どのようにすればよいのでしょうか?

また茶筅を用いて分かち書きを行っていますが、動詞、名詞のみをイン
デックスすることは可能でしょうか? 名詞だけなら茶筅のオプションを使え
ば可能そうなのですが…

Regards, Jota Matsubara
mail to: jota@xxxxxxxxxxxxxxxx