Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[Q] Any TIPS about wakatizing and indexing?
石橋"rubyholic"秀仁といいます。
はじめまして。ruby-list から来ました。
# Perl には無知 ^^; な、Ruby ユーザです。
Namazu の「わかち書き」と品詞の選別について質問いたします。
覚えたての Perl の知識で mknmz を読みました。バージョンは
$Id: mknmz.in,v 1.36 2000/02/29 04:25:34 satoru Exp $ です。
sub count_words, sub wordcount_sub
という 1970 行からの 2 つのサブルーチンが単語カウント数を
得るための部分ですね。
ここで、わかち書きと品詞の取捨選択について質問があります。
ぼくは ChaSen しか知らないので、そちらで話しをすすめます。
下は、コマンドラインで chasen を実行した例です。
$ nkf test
Ruby はとっても楽しいオブジェクト指向スクリプト言語☆です。
$ chasen test
Ruby Ruby Ruby 未知語
は ハ は 助詞-係助詞
とっても トッテモ とっても 副詞-一般
楽しい タノシイ 楽しい 形容詞-自立 形容詞・イ段 基本形
オブジェクト オブジェクト オブジェクト 名詞-一般
指向 シコウ 指向 名詞-サ変接続
スクリプト スクリプト スクリプト 名詞-一般
言語 ゲンゴ 言語 名詞-一般
☆ ☆ ☆ 記号-一般
で デ で 助詞-格助詞-一般
す ス する 動詞-自立 サ変・スル 文語基本形
。 。 。 記号-句点
EOS
$
このように、「は」「☆」「で」「す」など、ふつうは役に立たない
ようなものも含まれます。mknmz には、これらの品詞を取捨選択
するためのコードが無いように読めました。
わかち書きの結果から、素直に index を作っているのでしょうか?
あるいは、取捨選択をしているのでしょうか?
教えていただければ幸いです。よろしくお願いします。
--
Hideto "rubyholic" ISHIBASHI
http://www.rr.iij4u.or.jp/~hideto-i/
blade clone (yaiba) development:
http://www.rr.iij4u.or.jp/~hideto-i/rb/yaiba/index.html