Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: バグ報告



馬場@国立天文台計算センター と申します。

 From: 岩谷 宏 <HGA03630@xxxxxxxxxxx>
 Subject: [namazu-devel-ja] バグ報告
 Date: Tue, 11 Sep 2001 14:34:10 +0900

 > 「Namazuシステムの構築と活用」(ソフトバンク刊)の付随CD-ROMよ
 > り、すべてを構築して試用しております。同CD-ROM上のrpmは、使用
 > しておりません。
 > 
 > 【環境】
 > P4 1.7GHz, RAM 384Mb, HD 20Gb(Linux partition)
 > Red Hat 7.1, Kernel 2.4.7, glibc 2.2
 > 
 > (1)kakasiを使用した場合には、文章中に明らかにキーワードが(複数
 > 個も!)含まれるファイルを、検索時にピックアップしないケースが多
 > く、これは利用者にとって致命的バグと思われます。

そのような致命的バグは報告されておりません。おそらく、どこかで単純
な設定ミスをされているものとおもわれます。

コマンドラインから単純に kakasi -w < japanese.txt としたときに、分
かち書きがなされるようであれば、また NKF の Perl モジュールのイン
ストールにも問題ないようであれば、インデックス時(mknmz 実行時)の環
境変数の設定に問題があるようです。

mknmz は(namazu もですが)、環境変数の設定によって動作が変わる仕様
となっています。mknmz を実行しているシェルの環境変数 LANG が 
ja_JP.eucJP に設定されているか(あるいは LANGUAGE, LC_ALL, LC_CTYPE 
も) どうかをご確認下さい。


 > nknmz + chasenを動かしますと、途中(比較的早期)、セグメンテーショ
 > ン違反でpremature exitしてしまいます。このバグもまた、利用者にとっ
 > ては致命的です。

ChaSen は、改行の入っていない長い行を読むときに segfault すること
があります。これは Namazu (mknmz)の問題ではなく、ChaSen 固有の問題
であり、Namazu 側で解決するのは困難であろうとおもわれます。


 > ※nknmz + kakasiの場合は、これだけ大量のファイルに対しても無事にイ
 > ンデクスを作成し終えます(あらかじめすべてをハードディスクにコピー
 > したファイルに対しての総所用時間=15時間あまり)。

最初からいきなり大量の文書のインデックスを作成することは、動作確認
という観点からみてお勧めできません。ごく少数(せいぜい数10) 程度の
文書数で、繰り返し動作を確認した後に、本番の文書群に取り掛かられる
のがよろしいかとおもいます。いずれにせよ、きちんと設定してインデク
シングされている場合には、KAKASI であろうと ChaSen であろうと、実
際の使用感においては、ほとんど差は感じられないはずです。

なお、KAKASI は 2.3.4 に、Namazu は 2.0.6 に(まもなく 2.0.7 がリリー
スされます)、それぞれアップデートしておりますので、適宜最新版を入
手してご利用下さい。
--
馬場  肇 ( Hajime BABA )                  E-mail: hajime.baba@xxxxxxxxx
国立天文台 天文学データ解析計算センター
--