Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: バグ報告
馬場@国立天文台計算センター と申します。
From: 岩谷 宏 <HGA03630@xxxxxxxxxxx>
Subject: [namazu-devel-ja] バグ報告
Date: Tue, 11 Sep 2001 14:34:10 +0900
> 「Namazuシステムの構築と活用」(ソフトバンク刊)の付随CD-ROMよ
> り、すべてを構築して試用しております。同CD-ROM上のrpmは、使用
> しておりません。
>
> 【環境】
> P4 1.7GHz, RAM 384Mb, HD 20Gb(Linux partition)
> Red Hat 7.1, Kernel 2.4.7, glibc 2.2
>
> (1)kakasiを使用した場合には、文章中に明らかにキーワードが(複数
> 個も!)含まれるファイルを、検索時にピックアップしないケースが多
> く、これは利用者にとって致命的バグと思われます。
そのような致命的バグは報告されておりません。おそらく、どこかで単純
な設定ミスをされているものとおもわれます。
コマンドラインから単純に kakasi -w < japanese.txt としたときに、分
かち書きがなされるようであれば、また NKF の Perl モジュールのイン
ストールにも問題ないようであれば、インデックス時(mknmz 実行時)の環
境変数の設定に問題があるようです。
mknmz は(namazu もですが)、環境変数の設定によって動作が変わる仕様
となっています。mknmz を実行しているシェルの環境変数 LANG が
ja_JP.eucJP に設定されているか(あるいは LANGUAGE, LC_ALL, LC_CTYPE
も) どうかをご確認下さい。
> nknmz + chasenを動かしますと、途中(比較的早期)、セグメンテーショ
> ン違反でpremature exitしてしまいます。このバグもまた、利用者にとっ
> ては致命的です。
ChaSen は、改行の入っていない長い行を読むときに segfault すること
があります。これは Namazu (mknmz)の問題ではなく、ChaSen 固有の問題
であり、Namazu 側で解決するのは困難であろうとおもわれます。
> ※nknmz + kakasiの場合は、これだけ大量のファイルに対しても無事にイ
> ンデクスを作成し終えます(あらかじめすべてをハードディスクにコピー
> したファイルに対しての総所用時間=15時間あまり)。
最初からいきなり大量の文書のインデックスを作成することは、動作確認
という観点からみてお勧めできません。ごく少数(せいぜい数10) 程度の
文書数で、繰り返し動作を確認した後に、本番の文書群に取り掛かられる
のがよろしいかとおもいます。いずれにせよ、きちんと設定してインデク
シングされている場合には、KAKASI であろうと ChaSen であろうと、実
際の使用感においては、ほとんど差は感じられないはずです。
なお、KAKASI は 2.3.4 に、Namazu は 2.0.6 に(まもなく 2.0.7 がリリー
スされます)、それぞれアップデートしておりますので、適宜最新版を入
手してご利用下さい。
--
馬場 肇 ( Hajime BABA ) E-mail: hajime.baba@xxxxxxxxx
国立天文台 天文学データ解析計算センター
--