Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[Q] Any TIPS about wakatizing and indexing?



石橋"rubyholic"秀仁といいます。
はじめまして。ruby-list から来ました。
# Perl には無知 ^^; な、Ruby ユーザです。

Namazu の「わかち書き」と品詞の選別について質問いたします。

覚えたての Perl の知識で mknmz を読みました。バージョンは
$Id: mknmz.in,v 1.36 2000/02/29 04:25:34 satoru Exp $ です。
  sub count_words, sub wordcount_sub
という 1970 行からの 2 つのサブルーチンが単語カウント数を
得るための部分ですね。

ここで、わかち書きと品詞の取捨選択について質問があります。
ぼくは ChaSen しか知らないので、そちらで話しをすすめます。

下は、コマンドラインで chasen を実行した例です。

$ nkf test 
Ruby はとっても楽しいオブジェクト指向スクリプト言語☆です。
$ chasen test 
Ruby    Ruby    Ruby    未知語          
は      ハ      は      助詞-係助詞             
とっても        トッテモ        とっても        副詞-一般               
楽しい  タノシイ        楽しい  形容詞-自立     形容詞・イ段    基本形
オブジェクト    オブジェクト    オブジェクト    名詞-一般               
指向    シコウ  指向    名詞-サ変接続           
スクリプト      スクリプト      スクリプト      名詞-一般               
言語    ゲンゴ  言語    名詞-一般               
☆      ☆      ☆      記号-一般               
で      デ      で      助詞-格助詞-一般                
す      ス      する    動詞-自立       サ変・スル      文語基本形
。      。      。      記号-句点               
EOS
$ 


このように、「は」「☆」「で」「す」など、ふつうは役に立たない
ようなものも含まれます。mknmz には、これらの品詞を取捨選択
するためのコードが無いように読めました。

わかち書きの結果から、素直に index を作っているのでしょうか?
あるいは、取捨選択をしているのでしょうか?

教えていただければ幸いです。よろしくお願いします。

--
Hideto "rubyholic" ISHIBASHI
http://www.rr.iij4u.or.jp/~hideto-i/
blade clone (yaiba) development:
http://www.rr.iij4u.or.jp/~hideto-i/rb/yaiba/index.html