Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Office系フィルタでwvSummary を利用してみては? (Re:macbinary.pl)



寺西です。

Yukio USUDA wrote:
> 
> 現在titleが文字化けするからという理由でサポート外となっている日本語
> word7形式のファイルもwvSummaryがある場合サポート対象にしてもよいの
> ではないでしょうか?

はい。念頭にいれています。

word7 形式のファイルを wvWare で処理すると、3つの漢字コード(?)が
混在する HTML ファイルが出力されます。
1 つは TITLE で、漢字コードが異なるというか、文字化けですね。
どこかでコードを壊しています。
2 つめは、<div name="XXXX"> の部分。ファイルに埋め込まれた情報
を使うようで、ShiftJIS で出力されます。(例 <div name="標準">)
3 つめは、本文です。これは --charset 等で漢字コードの指定が
可能です。標準は UTF-8 です。

wvWare の古いバージョンは無視するとして、だいたい 0.7 以上なら
--charset をサポートしているはずなので、--charset=sjis で 
ShiftJIS 出力にして 2,3 の漢字コードを統一し、TITEL 文字を
削除するという処理を word7 形式に対して行えば、良いように思います。
 
> excel.pl,poweroint.plにも入れるか、util.plかgfilter.plに移して共通
> に利用するのがよいですね。

とりあえず、excel.pl, powerpoint.pl にも入れるということにします。

> excelやpowerpointをインデックスしなければいけない人はmswordの
> インデックスも作る人でしょうからwvSummaryが使えるようになっている
> 可能性は高いだろうと思います。

はいそう思います。また、wvSummary がない場合は従来と同じ動作に
なるはずですので、実害はないものと思います。
 
> > そのものではありませんが、OLE/Storage_Lite.pm が、これ相当と
> > して使えるのかな。(Perl モジュールでできるなら、そちらの方が
> > いいですね。)
> OLEストレージをアーカイブと同じように扱ってmknmzが全部自力で
> パースするという覚悟があればOLEの展開にPerlモジュールを使う
> という選択も面白いですが、wvwareやxlhtmlの完成度も高いので
> 今のままでよいように思います。

さすがに本文の取り出しは大変なので、
OLE/Storage_Lite.pm を使って、SummaryInfomation が簡単に
取り出せないかな程度に思っていましたが、taro7_10.pl 見ると
結構大変そうですね。
(wvSummary の代わりになる Perl モジュールとして使う)

だとすると libole2 の Perl モジュールを作った方が簡単かな。
 
> OLE/Storage_Lite.pmはさらにIO-stringyも要求することや、
> 全部Perlで書かれているので(これは利用面ではありがたいのですが)
> 少し遅いこともあるので一太郎フィルタ以外でも使うのはどうかと思っ
> ています。

ちなみに JSRV_SummaryInformation を一太郎フィルタでは使っている
ようですが、SummaryInfomation に入っている情報とは異なるので
しょうか?
# wvSummary や libole2/test/test-ole では SummaryInfomation しか
# 表示できないもので、ふと気になりました。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E