Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: namazu-2.0.12-mecab.patch
竹迫です。
>At Tue, 15 Jul 2003 20:53:57 +0900,
>takesako@xxxxxxxxx wrote:
>> (2) MeCab には、chasen -j に相当する(句点あるいは空行を文の区切り
>> として解析する)機能が存在しない。
>
> MeCab も、長い文を処理しようとすると問題が発生するのでしょうか。その
>問題がないようなら -j はなくても良いと思います。
MeCab の場合は、mecabrc という設定ファイルの中で
input-buffer-size = 262144
という書き方ができて、有限ですが、再コンパイルすることなしに
入力バッファのサイズを増やすことができるようになっています。
入力のバッファサイズを実行時に変更できる API も 0.53 以降の
バージョンから追加されています。
問題になりそうなのは、改行までを一つのとして処理する
MeCab の仕様で、今のところ KAKASI と同じく、複数行に
またがった単語(文)を正確に解析することができません。
くどうさんによると「形態素解析という処理は与えられた文を形態素
に区切り品詞を付与することであり、文という単位を同定することは
含まれない」という話でした。
他のユーザから強い要望があれば、Namazu 側に前処理を追加する
ことで対応しようと思っています。
# 前処理を追加すれば、KAKASI でも同じ事が実現できますし。
> 辞書への単語登録はちょっと面倒そうですね。活用を一通り展開した上で登
>録しないといけないようですし。
一般名詞や固有名詞などの追加は良いのですが、活用する語を追加したいときは
MeCab の場合、辞書登録時に活用展開しないといけないで、ちょっと面倒ですね。
ChaSen のように解析中に活用語を動的に展開する方法とは違って、
辞書作成時に静的に展開するという方針なので、MeCab の辞書サイズは
大きくなりますが、その分解析スピードが向上できるのだと思います。
--
株式会社ドリーム・アーツ
竹迫 良範 <takesako@xxxxxxxxxx>