Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
使用頻度の高い名詞と動詞を調べたい
- From: Matsubara Jota <jota@xxxxxxxxxxxxxxxx>
- Date: Tue, 12 Dec 2000 12:42:12 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 01313
松原と申します。
mknmz で作成したインデックスを解析して、どのような名詞と動詞が多く使用
されているかを解析したいと考えていますが、少々困っています。どなたかご
教示いただけないでしょうか?
使われている単語の頻度を調べるには、NMZ.w と NMZ.i をコンビネーション
で使えば多分うまくいきそうだということで NMZ.i に対して perl で
unpack( 'N', $_ ); としてみたのですが、途切れのない数字の羅列が表示さ
れ、内容の検討がつきません。
http://www.namazu.org/doc/nmz.html.ja#i によると NMZ.i は
[単語1を含む文書の総数 * 2][文書ID][スコア][文書ID][スコア]...
という順序で数字が並んでいるはずなのですが… pack されたデータを
unpack するには、どのようにすればよいのでしょうか?
また茶筅を用いて分かち書きを行っていますが、動詞、名詞のみをイン
デックスすることは可能でしょうか? 名詞だけなら茶筅のオプションを使え
ば可能そうなのですが…
Regards, Jota Matsubara
mail to: jota@xxxxxxxxxxxxxxxx