Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
doccat を用いた一太郎ファイルの変換
- From: Hideyuki Nishiyama <hnishi@xxxxxxxxxxxxxxxxxx>
- Date: Fri, 11 May 2001 08:52:44 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 01734
はじめまして、西山@国土環境と申します。
現在、Linux2.4+namazu+apache+SAMBA+doccatを用いて、
WinNTサーバの共有フォルダをsmbmountして、それを検索対象
として全文検索サーバを構築しています。まぁ、なじみのある
構成かと思います。
UNIX版のnamazuでは、一太郎ファイルの文書フィルタは、taro.pl
を用いて、そこの中でdoccat(http://www.dehenken.co.jp/products/doccat/
)を実行して、インデックスを作成しているかと思います。taro.plでは、
拡張子.jtd(一太郎8以降)のものを対象にapplication/x-js-taroとして
インデックスがうまく作成できています。
そこで、doccatを使って、7以前のバージョンの一太郎ファイル
に関してもうまく全文検索の対象にならないかと考えました。
ファイルを識別しているのが、MMagic.pmだったので、これを改造して、
バージョン5,6,7に対しても。application/x-js-taroとして、taro.plを
使うようにしました。また、taro.plとconf.plも変更しました。
---------- 改造部分 --------
root@search1 File]# diff MMagic.pm MMagic.pm.org
1627c1627
< >43 byte 0x15 application/x-js-taro
---
> >43 byte 0x15 application/ichitaro5
1630,1633c1630
< >43 byte 0x16 application/x-js-taro
<
< 0 string DOC
< >43 byte 0x17 application/x-js-taro
---
> >43 byte 0x16 application/ichitaro6
[root@search1 File]#
[root@search1 pl]# diff conf.pl conf.pl.org
31,34c31,33
< "|.*\\.pdf|.*\\.ps" . # PDF, PostScript
< "|.*\\.tex|.*\\.dvi" . # TeX, DVI
< "|.*\\.rpm|.*\\.deb" . # RPM, DEB
< "|.*\\.doc|.*\\.xls|.*\\.ppt" . # Word, Excel, PowerPoint
---
> "|.*\\.pdf" . # PDF
> "|.*\\.tex" . # TeX
> "|.*\\.doc|.*\\.xls" . # Word, Excel
36,37d34
< "|.*\\.jfw" . # Ichitaro 7
< "|.*\\.jtd" . # Ichitaro 8,9,10
188c185
[root@search1 pl]#
[root@search1 filter]# diff taro.pl taro.pl.org
59,61d58
< $magic->addFileExts('(?i)\\.jaw', 'application/x-js-taro');
< $magic->addFileExts('(?i)\\.jbw', 'application/x-js-taro');
< $magic->addFileExts('(?i)\\.jfw', 'application/x-js-taro');
[root@search1 filter]#
-----------------
そこで、バージョン7に関しては成功したのですが、5,6のファイル
がうまくいきません。どこがうまくいかないかというと、インデックス
ファイルは正常にできていて、きちんと全文解析されており、namazuを
実行した結果もきちんとひっかかります。しかし、検索結果の表示で、
文字化けを起こしています。
これに関してどこを修正したらよいか、情報をお持ちの方は教えて下さい。
また、これだけは情報がたりないといったことがありましたら、
ご指摘ください。
------------------------------------------------------------
国土環境株式会社 E-mail:hideyuki@xxxxxxxxxxxxxxxxx
情報システムグループ WWW :http://www.metocean.co.jp/
西山 英之 TEL :045-593-7616
FAX :045-593-7628