Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Office系フィルタでwvSummary を利用してみては? (Re:macbinary.pl)



臼田です

Tadamasa Teranishi wrote:

> wvWare の古いバージョンは無視するとして、だいたい 0.7 以上なら
> --charset をサポートしているはずなので、--charset=sjis で 
> ShiftJIS 出力にして 2,3 の漢字コードを統一し、TITEL 文字を
> 削除するという処理を word7 形式に対して行えば、良いように思います。
--charsetはOS付属のiconvに依存しているので心配だというような話を
namazu-devel-ja 03236 でされていましたが大丈夫ですか。


> ちなみに JSRV_SummaryInformation を一太郎フィルタでは使っている
> ようですが、SummaryInfomation に入っている情報とは異なるので
> しょうか?

OLEファイルだと気づかずに中身を調べていたときに見つけたブロック
を使っています。
下はOLE-Storage_Lite.pmのサンプルについているsmplls.plでOLEスト
レージ内の各ファイル名を表示したものですが、SummaryInfomationも
確かにありますね。
サイズ的にはJSRV_SummaryInformationのほうが大きく情報量が多かっ
たため(日本語のタイトルがたくさん入っています)データの意味を
推測しやすかったのだと思います。
wvSummaryを使ってみたところ、SummaryInformationでも必要な情報は
得られるようです。

$ perl ./smplls.pl taro8.jtd  
00    1 'Root Entry' (pps 0)                          ROOT 04.01.2001 05:51:29
01      1 'Font' (pps 7)                              FILE         48 bytes
02      2 'Header' (pps 6)                            FILE        230 bytes
03      3 'Footnote' (pps 5)                          FILE        130 bytes
04      4 'LineMark' (pps 11)                         FILE         32 bytes
05      5 'PageMark' (pps 13)                         FILE         5c bytes
06      6 'PaperMark' (pps 12)                        FILE         24 bytes
07      7 'DocumentText' (pps 4)                      FILE        130 bytes
08      8 'DocumentMacro' (pps 8)                     DIR  04.01.2001 05:51:29
09        1 'Macros' (pps 9)                          DIR  04.01.2001 05:51:29
10          1 'BaseStorage0' (pps a)                  DIR  04.01.2001 05:51:29
11            1 'InfoStream' (pps b)                  FILE          8 bytes
12            2 'MacrosStream' (pps c)                FILE          2 bytes
13            3 'MacrosStreamStyle3' (pps d)          FILE          2 bytes
14            4 ' JSRV_SegmentInformation' (pps e)    FILE        1b0 bytes
15          2 ' JSRV_SegmentInformation' (pps f)      FILE         f0 bytes
16        2 ' JSRV_SegmentInformation' (pps 10)       FILE         f0 bytes
17      9 'DocumentEditStyles' (pps 3)                FILE        38c bytes
18     10 'DocumentViewStyles' (pps 2)                FILE        5ab bytes
19     11 ' SummaryInformation' (pps 14)              FILE        156 bytes
20     12 ' JSRV_SegmentInformation' (pps 15)         FILE        4b0 bytes
21     13 ' JSRV_SummaryInformation' (pps 1)          FILE        8f4 bytes

臼田幸生