Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: word95 と wvWare



白井です。

From: Fumitaka Kitagawa <kitagawa@xxxxxxxxxxxxxxxxxx> さん曰く
Subject: [namazu-users-ja] word95 と wvWare
Message-ID: <200110040252.LAA29066@xxxxxxxxxxxxxxxxxxxxxxxxx>
Date: Thu, 04 Oct 2001 11:51:54 +0900

> さて、確かWord95はwvWareで現在扱えないという事だったと思います。
> 今回、wvWareを0.6.7にアップしました。
> Word95の文章を扱えるかどうかを確認するにはどうすれば宜しいでしょうか。

filter/msword.pl (標準インストール先は /usr/local/share/namazu/filter/msword.pl)
をみるとどうやっているかわかるのですが、

% wvHtml test.doc test.tmp
% lv -Iu8 -Oej test.tmp > test.html

とした test.html が euc-japan でちゃんと読めれば問題ないです。面
倒くさかったら、

% wvWare test.doc | lv -Iu8 -Oej test.tmp > test.html

でも良いと思います。

> 一応、0.6.4ではnamazu添付のword95.docをhtml変換し、netscape4.78で見る
> と文字化け(?)します。
> しかし、0.6.7でnamazu添付のword95.docをhtml変換し、netscape4.78で見る
> と正常に見えます。

ほぉぉと思い、wvWare 0.6.7 をインストールして、MSOffice2000 の
MSWord の「word95 形式」で出力したものを試したところ、ちゃんと動
作するようです。

ただし、従来、word95 形式は北川さんがいわれているように文字化け
するため、mknmz するときに前述の msword.pl ではじくようになって
います。122 行目を

		if ($version =~ /^word[78]$/) {

とすると、mknmz もちゃんとできます。

以下、実験結果です。

% wvVersion w95.doc 
Version: word7, Encrypted: No
% wvVersion w2000.doc
Version: word8, Encrypted: No
% mknmz ./
検索対象のファイルを調べています...
2個のファイルがインデックス作成の対象として見つかりました
1/2 - /tmp/TEMP/w95.doc 未対応の形式: word7
1/1 - /tmp/TEMP/w2000.doc [application/msword]
インデックスを書き出しています...

<<msword.pl を改造する>>

% mknmz ./
検索対象のファイルを調べています...
2個のファイルがインデックス作成の対象として見つかりました
1/2 - /tmp/TEMP/w95.doc [application/msword]
2/2 - /tmp/TEMP/w2000.doc [application/msword]
インデックスを書き出しています...

## 以下、適当なテストファイルで申し訳ないのですが。。。

% namazu "白井" ./
検索結果

参考ヒット数:  [ 白井: 2 ] 

検索式にマッチする 2 個の文書が見つかりました。

1. 白井秀行 (スコア: 18)
著者: 不明
日付: Fri, 05 Oct 2001 17:51:09
白井秀行
/tmp/TEMP/w2000.doc (19,456 bytes)

2. Untitled (スコア: 2)
著者: 不明
日付: Fri, 05 Oct 2001 17:51:09
白井秀行
/tmp/TEMP/w95.doc (11,264 bytes)

# wvWare での title の抽出がだめで、html を見ても
# <title> Untitled </title> でした。ので、正式なサポートはしない
# ほうが良いかも。Untitled だったら、filename にするという手もあ
# ると思いますが、html.pl の改造はぼくには無理なのでお手上げ。

-- 
白井秀行 (mailto:shirai@xxxxxxxxxxxxxxxxxxx)