Namazu-win32-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
MS-Officeを使用しないインデックス作成についての報告
- From: "HANAI,Akira" <hanai-a@xxxxxxxxxxxxxxxxxxxxxxx>
- Date: Tue, 25 Mar 2003 17:33:41 +0900
- X-ml-name: namazu-win32-users-ja
- X-mail-count: 01787
お世話になっております。
花井と申します。
かなり遅いですが、以前出ていた
「サーバーにMS-Officeを入れずにWORD,Excelの検索」
という話題に対しての、当方で行っている事例の報告です。
(当方環境での検証や、フィルターの調整に時間がかって遅くなりました。)
win32環境にてnamazuのフィルターに使用できる、コマンドラインから
MS-Office等のファイルを変換できるフリーのツールがありました。
下記URLにて公開されている、hishida様作成の「xdoc2txt」というツールです。
http://plaza3.mbn.or.jp/~h_ishida/
(hishida様にはURLをnamazu-MLにて公開することをご承諾頂きました。)
*注意*
xdoc2txt自体の問題でない問題(ex.namazuのフィルターに使用した場合の不具合や
namazuのフィルターとしての使用方法等)についてxdoc2txtの作者様に問い合わせ
をすることはご遠慮下さい。
また、xdoc2txtを使用したフィルターのサンプルを下記URLにアップしました。
http://www.geocities.co.jp/SiliconValley-Oakland/8718/namazu/index.html
(当方0からフィルターを作成できる技術がないためfilter/taro.plを元に改造
させて頂きました。)
上記からmsword2.pl.txtをダウンロードしファイル名を「msword2.pl」に変更した
上でnamazuのフィルターのフォルダに配置して動作を確認できます。
当方では
・xdoc2txt.exeと(xdoc2txtに同梱の)zlib.dllをPATHの通ったフォルダに配置
・「¥namazu¥share¥namazu¥filter¥」フォルダにmsword2.plを配置
・念のために競合するmsword.plをmsword.pl.tmpにリネーム(これは不要かも?)
・.docを対象にするよう「¥namazu¥etc¥namazu¥mknmzrc」を書き換え
することでWORD95/97/2000のインデックス化に成功しております。
なお、当方ではWORDのインデックス化のみが必要だったためmsword2.plは
・application/msword
・application/rtf
のみを対象に作りましたが、xdoc2txtは下記フォーマットに対応しているため
それらのフィルターを開発することも可能と思われます。
[対応フォーマット]
.rtf リッチテキスト
.doc WORD ver5.0/95/97/2000
.xls Excel ver5.0/95/97/2000
.ppt PowerPoint 97/2000
.jaw/jtw 一太郎 ver5
.jbw/juw 一太郎 ver6
.jfw/jvw 一太郎 ver7
.jtd/jtt 一太郎 ver8/9/10/11/12
.oas/oa2/oa3 OASYS/Win
.bun 新松/松5/松6
.wj2/wj3/wk3/wk4/123 Lotus 123
.wri Windows3.1 Write
.pdf Adobe PDF
msword2.plにはコメントでExcel/PowerPoint/PDF/一太郎に対応できるような記述
を入れてありますが、それらの動作については未検証です。
「サーバーにMS-Officeを入れずにインデックス作成したい」という話題で
wvWareが紹介されていましたが、当方でwvWareを試したところ
・win32環境ではwvWareをコンパイルする環境を持っていない人が多い
・GnuWin32でwvWareのバイナリも配布しているが変換できないwordファイル
が多い(※)と感じた
ためxdoc2txtを使用した事例として、紹介することに致しました。
※
GnuWin32にて配布のwvWare0.7.2を当方所有のwordファイル(約2000ファイル)に
対して使用してみての感想です。
変換できないファイルはコマンドラインからwvware.exeで直接変換してもエラー
ダイアログを出してしまいます。
そのためmknmz時は、mknmz自体がそこで止まってしまいます。
エラーになるのが数ファイルならば$DENY_FILEで除外しようと思いましたが、
あまりにも多い(当方所有のファイルで20ファイルに1ファイルくらいエラーになる)
ためwvWareでのインデックス作成を断念してwordファイルは検索対象外にしていま
した。
============================================================================
NECフィールディング.東日本CSD.テクニカルサポート部.花井 亮(はない あきら)
http://www.geocities.co.jp/SiliconValley-Oakland/8718/
----------------------------------------------------------------------------