namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: mknmz with chasen stops



清水@住友林業です。

Mon, 10 Aug 1998 13:28:50 +0900 に、
Kenji Suzuki <kenji@xxxxxxxxxxxxxxxx> さんは書きました ;

> mknmz に -c オプションをつけて chasen で index してみた
> のですが,同じファイルで process が終わって(死んで)しま
> います.
> 
> 111708 byte の SJIS の htmlファイルで,unixでは改行がな
> く1行のファイルなのですが,1行が長すぎるのが原因でしょう
> か?

たぶんそうだと思います。chasen は解析対象の文章を格納する内部バッファを
8192 bytes としています。で、document にはこう書いてあります。

-- 引用ここから --


-jオプションについて

茶筌では通常,改行をもって一つの入力文字列の終了とする.しかし,解析用の
バッファサイズの制限により,解析文が長い(1000文字程度)場合,バッファを使
いきって解析することが不可能となり `Too many morphs' というメッセージを
表示することがある.そのようなときは -j オプションをつければ, 句点(`.'
と`。')を文の区切りとして解析を行うようになるため,長い文章であっても途
中に句点があればほとんどの場合解析できるようになる.


-- 引用ここまで --


というわけで、mknmz の 

  $CHASEN = "chasen -F '\%m '";

なんていう行を

  $CHASEN = "chasen -F -j '\%m '";

とすればいいのではないか、と思います。
ご参考まで。

end
--
  住友林業株式会社  情報システム部   清水 和佳
 
  TEL: +81-3-5322-6672  FAX: +81-3-5322-6658  Niftyserve: XLW01034
  e-mail: <kshimz@xxxxxxxxx>