Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
mknmz with Mecab
- From: HIROSE Yoshihide <yoshihide@xxxxxxxxxx>
- Date: Mon, 16 Feb 2004 12:08:38 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 03683
廣瀬と申します。
mknmz で 形態素解析器にMeCabを使えるようにしたものを作ってみました。
cvs headにマージしようと思っていたのですがうちではcvs先端のものがmake
できないので、そのまま放っていたものです。
でも、多少なりとも利点があるかと思い直して,2.0.12を元に作業しなおして
みました。
利点:
MeCabだと,若干インデクスが小さくなる。
MeCabだと、若干インデクスが速い(ような気がする)
MeCabのバージョンは 0.75で作っていますが、MeCabのサイトを
見るかぎりでは,0.77でも動くと思いますが,未検証です。
module-mecabがあればそれを,なければmecabを使用します。
-b --use-mecab でmecabを形態素解析に使用します。
tar+gz したものを 以下においておきます。興味のあるかたはお試しください。
http://w3.fast.co.jp/~hirose/namazu-2.0.12-with-mecab.tar.gz
MeCabの入手,インストール,設定は MeCabのサイトを参照してください。
http://cl.aist-nara.ac.jp/~taku-ku/software/mecab/
以下,KAKASI/Chasen/MeCabで小さなインデックスを作ってみた結果です。
[基本]
日付: Mon Feb 16 11:47:48 2004
追加された文書の数: 43
サイズ (bytes): 856,010
合計の文書数: 43
追加キーワード数: 1,741
合計キーワード数: 1,741
わかち書き: module_kakasi -ieuc -oeuc -w
経過時間 (秒): 14
ファイル/秒: 3.07
システム: freebsd
Perl: 5.006001
Namazu: 2.0.12
[基本]
日付: Mon Feb 16 11:48:26 2004
追加された文書の数: 43
サイズ (bytes): 856,010
合計の文書数: 43
追加キーワード数: 1,623
合計キーワード数: 1,623
わかち書き: module_chasen -j -F '%m '
経過時間 (秒): 14
ファイル/秒: 3.07
システム: freebsd
Perl: 5.006001
Namazu: 2.0.12
[基本]
日付: Mon Feb 16 11:49:00 2004
追加された文書の数: 43
サイズ (bytes): 856,010
合計の文書数: 43
追加キーワード数: 1,583
合計キーワード数: 1,583
わかち書き: module_mecab -Owakati
経過時間 (秒): 12
ファイル/秒: 3.58
システム: freebsd
Perl: 5.006001
Namazu: 2.0.12