Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

mknmz with Mecab



廣瀬と申します。
mknmz で 形態素解析器にMeCabを使えるようにしたものを作ってみました。

cvs headにマージしようと思っていたのですがうちではcvs先端のものがmake 
できないので、そのまま放っていたものです。

でも、多少なりとも利点があるかと思い直して,2.0.12を元に作業しなおして
みました。

利点:
 MeCabだと,若干インデクスが小さくなる。
 MeCabだと、若干インデクスが速い(ような気がする)
 
MeCabのバージョンは 0.75で作っていますが、MeCabのサイトを
見るかぎりでは,0.77でも動くと思いますが,未検証です。

module-mecabがあればそれを,なければmecabを使用します。

-b  --use-mecab でmecabを形態素解析に使用します。

tar+gz したものを 以下においておきます。興味のあるかたはお試しください。
http://w3.fast.co.jp/~hirose/namazu-2.0.12-with-mecab.tar.gz



MeCabの入手,インストール,設定は MeCabのサイトを参照してください。

http://cl.aist-nara.ac.jp/~taku-ku/software/mecab/


以下,KAKASI/Chasen/MeCabで小さなインデックスを作ってみた結果です。

[基本]
日付:                Mon Feb 16 11:47:48 2004
追加された文書の数:  43
サイズ (bytes):      856,010
合計の文書数:        43
追加キーワード数:    1,741
合計キーワード数:    1,741
わかち書き:          module_kakasi -ieuc -oeuc -w
経過時間 (秒):       14
ファイル/秒:         3.07
システム:            freebsd
Perl:                5.006001
Namazu:              2.0.12

[基本]
日付:                Mon Feb 16 11:48:26 2004
追加された文書の数:  43
サイズ (bytes):      856,010
合計の文書数:        43
追加キーワード数:    1,623
合計キーワード数:    1,623
わかち書き:          module_chasen -j -F '%m '
経過時間 (秒):       14
ファイル/秒:         3.07
システム:            freebsd
Perl:                5.006001
Namazu:              2.0.12

[基本]
日付:                Mon Feb 16 11:49:00 2004
追加された文書の数:  43
サイズ (bytes):      856,010
合計の文書数:        43
追加キーワード数:    1,583
合計キーワード数:    1,583
わかち書き:          module_mecab -Owakati
経過時間 (秒):       12
ファイル/秒:         3.58
システム:            freebsd
Perl:                5.006001
Namazu:              2.0.12