namazu-ml(ring)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
wdnmz v1.0.8 abnormal ends (Re: namazu-1.4.0.0-alpha-6 (Re: namazu-1.4.0.0-alpha-5))
- From: Kaz SHiMZ <kshimz@xxxxxxxxx>
- Date: Sat, 20 Feb 1999 15:39:36 +0900
清水@住友林業です。
namazu-1.4.0.0-alpha-6 を OS/2 上で試してみました。
mknmz の対象は例によって、旧 namazu ML の 1〜1075 のメールです。
nkf と Kakasi は perl module を使っています。結果は
Date: Sat Feb 20 14:38:44 1999
Added Files: 1,075 files
Total Files: 1,075 files
Size: 2,958,288 bytes
Added Keywords: 13,270 words
Total Keywords: 13,270 words
Wakati: module_kakasi -ieuc -oeuc -w
ARGV: '-ahkuHK' 'h:/document/namazu-ml'
Perl Version: 5.00553
Namazu Version: 1.4.0.0-alpha-6
System: os2
Time: 294 sec.
こんな具合になります。
で、v1.3.0.1 の mknmz で、Kakasi の辞書は全く同一の状態の結果で
(nkf のみ perl module で Kakasi は外部プログラム)やると
Date: Sat Feb 20 15:02:21 1999
Added Files: 1,075 files
Deleted Files: 0 files
Updated Files: 0 files
Total Files: 1,075 files
Size: 2,958,288 bytes
Keywords: 12,877 words
Wakati: kakasi -ieuc -oeuc -w
Perl Version: 5.00553
Namazu Version: 1.3.0.1
System: os2
Time: 1103 sec.
となります。keywords 数が変わってしまったのは、「HTMLのタグを削除する
処理をいじった副作用」だと考えて良いのでしょうか?
ここらへん、Keywords を wdnmz で取り出して diff 取ろうかと思ったの
ですが、今度は wdnmz がお亡くなりになりました。どこかの定数を大きく
すれば直るようなものなのでしょうか?
% perl h:/usr/local/namazu/bin/wdnmz ./NMZ.i > 1400.words
Out of memory during "large" request for 536875008 bytes at
h:/usr/local/namazu/bin/wdnmz line 64, <OBJFILE> chunk 1.
一方、引数なしで起動すると、こう出ます(正常ですね)。
% perl h:/usr/local/namazu/bin/wdnmz
wdnmz v1.0.8 - program to output list of words from index
Copyright (C) 1997-1998 Satoru Takabayashi All rights reserved.
usage: wdnmz [-iw] NMZ.i
(default): 'word' TAB 'count of the word in index'
-w: output list of words for regex search
-i: using NMZ.ii to process
usually use: % wdnmz -w NMZ.i > NMZ.w)
namazu によるキーワードの検索自体は、とりあえず問題なく動いています
し、見たところ v1.3.0.1 とのヒットの違いはなさそうでした。
また、v1.3.0.1 の wdnmz(wdnmz 1.0.6)ではキーワード表示は問題なく
できています(当然、v1.3.0.1 で作った index を対象にしています)。
ちなみに、NMZ.i と NMZ.p のサイズはこうなっています。
v1.3.0.1
NMZ.i 1,071,678 Bytes
NMZ.p 813,804 Bytes
v1.4.0.0-alpha-6
NMZ.i 458,257 Bytes
NMZ.p 348,103 Bytes
インデックスのサイズは半分以下になったので、pack 'w' は効果大、という
ところでしょうか。
... とりあえず wdnmz の問題が気になります。
ではでは。
end
--
住友林業株式会社 情報システム部 清水 和佳
TEL: +81-3-5322-6672 FAX: +81-3-5322-6658 Niftyserve: XLW01034
e-mail: <kshimz@xxxxxxxxx>