Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

New OLE Excel filter (speed up!)



竹迫です。

Namazu 2.0 for Win32 の oleexcel.pl を使って、大きな Excelファイルに
対して mknmz すると、インデックスに途方もなく時間がかかってしまって
困っているという方に朗報です。

新しい OLE Excel filter を書いてみました。良い結果が得られましたので
公開いたします。とりあえず、以下の URL から入手してください。

--------------------------------------------------------------------
● New OLE Excel filter の入手先
 http://www.namazu.org/~takesako/pub/oleexcel.pl

● 環境
 Namazu 2.0.5 / Namazu 2.0.4 for Win32
 Windows NT4.0 SP5 / Windows 95 OSR2.1
 Microsoft Excel 2000 / 97
 ActivePerl 5.00503 build 522 で確認

● インストール方法
 \namazu\share\namazu\filter\win32 のディレクトリにある
 oleexcel.plファイルを新しいものに置き換えます

● 原理
 Excelファイルに含まれる各ワークシートをタブ区切り形式(*.txt)として
一時ファイルに保存し、作成された複数のファイルを適切にアンエスケープ
してから一つのテキストに結合し、インデックスの対象とします

● 特徴
・処理が高速(speed up!)
 ファイルによってはインデックス作成時間が約1/2〜1/10に短縮されます
・些細な OLEエラー で処理が中断しないようにした
・warningメッセージの表示を抑制した
・2つの一時ファイルを作成(処理後に削除されます)

--------------------------------------------------------------------

 もし興味のある方がおられましたら、他の環境でもきちんと動作するか
どうかテストしていただけると有り難いです。また、時間のある方がおら
れましたら、ベンチマークの結果を教えていただけるととても嬉しいです。

うまく動きませんでしたら、すみません。

# 会社では約3,500個のOffice文書があるのですが、これによって今まで
# 時間のかかっていた mknmz の時間が大幅(約1/10)に短縮できました。

--
   広島市立大学 情報科学部 情報機械システム工学科
     竹迫 良範 <takesako@xxxxxxxxx>