Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
バグ報告
- From: 岩谷 宏 <HGA03630@xxxxxxxxxxx>
- Date: Tue, 11 Sep 2001 14:34:10 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 01966
Dear Sirs,
「Namazuシステムの構築と活用」(ソフトバンク刊)の付随CD-ROMよ
り、すべてを構築して試用しております。同CD-ROM上のrpmは、使用
しておりません。
【環境】
P4 1.7GHz, RAM 384Mb, HD 20Gb(Linux partition)
Red Hat 7.1, Kernel 2.4.7, glibc 2.2
(1)kakasiを使用した場合には、文章中に明らかにキーワードが(複数
個も!)含まれるファイルを、検索時にピックアップしないケースが多
く、これは利用者にとって致命的バグと思われます。私がこのことを確
認するために用いたテストドキュメントは:
日本Linux協会制作 jla Doc-CD Volume 2 /ml/debian-devel/msg*.html
同 jla Doc-CD Volume 4 /ml/linux-users/msg*.html
この2つのディレクトリをディスク上の適当なディレクトリ(たとえば
test)にコピーし、msg*.htmlファイルに関してファイルリストを作り、
mknmz -Fを動かします。こうしてできたインデクスに対して、たとえば:
namzu -ah xfs . >testresult.html
等とします。xfsという語が文章中に複数個含まれるファイルで、検索に
より拾われないファイルが多いことに気づきます。(上のテストケース
では、linux-usersにある該当ファイルはまったく拾われない。)
(2)上と同じファイルリストに対し、chasen(chasen-module)を使用して
nknmz -Fを動かした場合には、検索におけるこの“ファイル落ち”という
現象は起きません。該当ファイルを、すべて完全に拾ってくれます。す
ばらしい!。そこで、利用者としては、chasen路線で行こうと思うのです
が、ところが、非常に大量のファイル(上記Doc-CDのVol. 2,3,4の各mlデ
ィレクトリの全内容(ただしmsg*.htmlファイルのみ))に対して、この
nknmz + chasenを動かしますと、途中(比較的早期)、セグメンテーショ
ン違反でpremature exitしてしまいます。このバグもまた、利用者にとっ
ては致命的です。
※nknmz + kakasiの場合は、これだけ大量のファイルに対しても無事にイ
ンデクスを作成し終えます(あらかじめすべてをハードディスクにコピー
したファイルに対しての総所用時間=15時間あまり)。検索におけるフ
ァイル落ち/見逃しがなければ、したがって、nknmz + kakasiで行きたい
ところです。
9月11日/岩谷 宏