Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

半角カナ対応パッチで



原田@福岡です。
公開、どうも有難うございます。
logを書き出したので、長くなりました事をお許し下さい。

Win98(office97、pdf) Win2000(office2000,pdf)
半角カナ対応パッチとCVSからのFILTERでの実行結果
対象:word、excel、powerpoint、pdf、の12文書
   :上記にプラスtext、htmlも混在した313文書を加えて
計325文書でもテスト(office97)
Win2000では373文書(office97で作成のファイルが60%
office2000で作成した文書3文書、残りはpdf、html、textです)
1. 竹迫さんが提供された
http://www.namazu.org/~takesako/pub/nmz205w32-kana-patch.exe

最新のOLEオートメーションフィルタ ]
namazu\share\namazu\filter\win32\oleexcel.pl : Excel文書フィルタ
namazu\share\namazu\filter\win32\olemsword.pl : Word文書フィルタ
namazu\share\namazu\filter\win32\olepowerpoint.pl : PowerPoint文書フィルタ
でテスト

2. http://cvs.namazu.org/ から取得したもの
OLEフィルター“oleexcel.pl”(v1.9)に入替え
olemsword.plとolepowerpoint.plはそのままでテスト


NKF: module_nkf
KAKASI: module_kakasi -ieuc -oeuc -w
茶筌: no -j -F '%m '
わかち書き: module_kakasi -ieuc -oeuc -w
言語: ja_JP.SJIS
文字コード: sjis
CONFDIR: C:/namazu/etc/namazu
LIBDIR: C:/namazu/share/namazu/pl
FILTERDIR: C:/namazu/share/namazu/filter
TEMPLATEDIR: C:/namazu/share/namazu/template
対応メディアタイプ:
application/excel
application/msword
application/pdf
application/powerpoint
application/rtf
application/x-gzip
message/news
message/rfc822
text/hnf
text/html
text/html; x-type=mhonarc
text/plain
text/plain; x-type=rfc
c:\mknmz -a -U -O c:\namazu\var\namazu\index c:\httpd132f\qms\data\
1.の場合のlog(12文書でまずテスト)
検索対象のファイルを調べています...
12個のファイルがインデックス作成の対象として見つかりました
1/12 - /c|/04/CE端末管理.ppt [application/powerpoint]
      ・ 省略
      ・ 省略
4/12 - /c|/04/Fタイムスケジュール.ppt [application/powerpoint]
5/12 - /c|/04/degitaipav.csv ファイルが巨大なので無視します
5/11 - /c|/04/cad標準図面資料.doc [application/msword]
6/11 - /c|/04/リンク付報告書 9月sepcenter.xls [application/excel]
7/11 - /c|/04/送出ブロック系統b.ppt [application/powerpoint]
8/11 - /c|/04/送出ブロック系統図b.PDF [application/pdf]
9/11 - /c|/04/トクチュウヒンcad図面シリョウ.doc [application/msword]
10/11 - /c|/04/稟議回答.xls [application/excel]
11/11 - /c|/04/稟議回答3.xls [application/excel]
インデックスを書き出しています...
[基本]
日付: Thu Jan 25 08:47:54 2001
追加された文書の数: 11
サイズ (bytes): 6,190,126
合計の文書数: 11
追加キーワード数: 1,419
合計キーワード数: 1,419
わかち書き: module_kakasi -ieuc -oeuc -w
経過時間 (秒): 45
ファイル/秒: 0.24
システム: MSWin32
Perl: 5.006
Namazu: 2.0.5

1.バックアップしたのち、nmz205w32-kana-patch.exe のインストール。実行
2.namazu\share\namazu\filter\win32のoleexcelをcvsからのv1.9へ入替え。実行
ppt、doc、xls、pdfともにファイル名の半角カナまじり、excelのリンク付で 実施しました
(2.)のoleexcel(v1.9)でも経過時間がほんの少し違うだけで、うまくいきました
結果は(1.)、(2.)共に良好でした。
ブラウザ上でも全角カナで入力すると、アクセス、閲覧が問題なくできます。

半角カナ対応パッチoleexcel(v1.4)とcvs(v1.9)からの違いは
キーワード抽出数が若干違う位で他は特に問題は出ませんでした。

強いてあげれば、文書数が大量になった時のインデックス作成時間でしょうか。
indexingの時間はoleexcel(v1.4とv1.9)の違いは
v1.4では325文書で『355/sec』
v1.9では325文書で『578/sec』でした。

また、佐藤@大和鑑定さんが.pptがはずれるとMLで言われていましたが
私が実施した環境でも“-a”のオプションを付けずに、(mknmzrcの方で*.pptを
設定している)実行すると対象になりませんでした。

Win2000でも同じ現象が出ました。
それに加え、“オプション-a、-U、-O”付きでインデックスを作成後
検索すると、Replaceの表示が下記の様になります
(Win98ではならなかったので、OSの違いでしょうか?)
コマンドプロンプトでインデキシングしている時の表示は正常です。
6. 野口システム系統図.PDF (スコア: 16)
著者: 不明
日付: Fri, 08 Sep 2000 08:20:00
システムブロック図 AV機器集中 配線支給 <調整室> ・・・・・略
より I /Oユニット 配線支給 AC100V電源供給 据置型 ・・・・・ 略
http://172.16.1.222/data/野口湿漆偲児V賄・゛.PDF (39,827 bytes)
                 ^^^^^^^^^^^^^^^
Win2000ではiis5.0とapache1.3.12で確認
Win98では最近apacheの機嫌が悪く、怒られますので
anhttpd132fで試しました。(98では正常)
7. 野口システム系統図2.PDF (スコア: 16)
途中略
http://172.16.1.222/data/野口湿漆偲児V賄・泯イ.PDF (39,831 bytes)
                 ^^^^^^^^^^^^^^^^^^
8. Fタイムスケジュール.ppt (スコア: 32)
途中略
http://172.16.1.222/data/F実軸紗漆嫉湿酌鹿鴫勺.ppt (124,928 bytes)
                  ^^^^^^^^^^^^^^^^^^
office2000で作成した半角カナ文書はなかったので調べていません。

取り敢えずご報告まで。
原田@福岡<harada@xxxxxxxxx>