namazu-ml(avocado)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: mknmz with chasen stops
- From: Kaz SHiMZ <kshimz@xxxxxxxxx>
- Date: Wed, 12 Aug 1998 20:37:02 +0900
- X-ml-name: namazu
- X-mail-count: 01027
清水@住友林業です。
Mon, 10 Aug 1998 13:28:50 +0900 に、
Kenji Suzuki <kenji@xxxxxxxxxxxxxxxx> さんは書きました ;
> mknmz に -c オプションをつけて chasen で index してみた
> のですが,同じファイルで process が終わって(死んで)しま
> います.
>
> 111708 byte の SJIS の htmlファイルで,unixでは改行がな
> く1行のファイルなのですが,1行が長すぎるのが原因でしょう
> か?
たぶんそうだと思います。chasen は解析対象の文章を格納する内部バッファを
8192 bytes としています。で、document にはこう書いてあります。
-- 引用ここから --
-jオプションについて
茶筌では通常,改行をもって一つの入力文字列の終了とする.しかし,解析用の
バッファサイズの制限により,解析文が長い(1000文字程度)場合,バッファを使
いきって解析することが不可能となり `Too many morphs' というメッセージを
表示することがある.そのようなときは -j オプションをつければ, 句点(`.'
と`。')を文の区切りとして解析を行うようになるため,長い文章であっても途
中に句点があればほとんどの場合解析できるようになる.
-- 引用ここまで --
というわけで、mknmz の
$CHASEN = "chasen -F '\%m '";
なんていう行を
$CHASEN = "chasen -F -j '\%m '";
とすればいいのではないか、と思います。
ご参考まで。
end
--
住友林業株式会社 情報システム部 清水 和佳
TEL: +81-3-5322-6672 FAX: +81-3-5322-6658 Niftyserve: XLW01034
e-mail: <kshimz@xxxxxxxxx>