Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Office系フィルタでwvSummary を利用してみては? (Re:macbinary.pl)
- From: Yukio USUDA <m6694ha392t@xxxxxxxxxxxxxxx>
- Date: Sat, 10 Jan 2004 22:29:30 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 03532
- References: <3FFFAEBE.3DA41A25@asahi-net.or.jp>
臼田です
Tadamasa Teranishi wrote:
> wvWare の古いバージョンは無視するとして、だいたい 0.7 以上なら
> --charset をサポートしているはずなので、--charset=sjis で
> ShiftJIS 出力にして 2,3 の漢字コードを統一し、TITEL 文字を
> 削除するという処理を word7 形式に対して行えば、良いように思います。
--charsetはOS付属のiconvに依存しているので心配だというような話を
namazu-devel-ja 03236 でされていましたが大丈夫ですか。
> ちなみに JSRV_SummaryInformation を一太郎フィルタでは使っている
> ようですが、SummaryInfomation に入っている情報とは異なるので
> しょうか?
OLEファイルだと気づかずに中身を調べていたときに見つけたブロック
を使っています。
下はOLE-Storage_Lite.pmのサンプルについているsmplls.plでOLEスト
レージ内の各ファイル名を表示したものですが、SummaryInfomationも
確かにありますね。
サイズ的にはJSRV_SummaryInformationのほうが大きく情報量が多かっ
たため(日本語のタイトルがたくさん入っています)データの意味を
推測しやすかったのだと思います。
wvSummaryを使ってみたところ、SummaryInformationでも必要な情報は
得られるようです。
$ perl ./smplls.pl taro8.jtd
00 1 'Root Entry' (pps 0) ROOT 04.01.2001 05:51:29
01 1 'Font' (pps 7) FILE 48 bytes
02 2 'Header' (pps 6) FILE 230 bytes
03 3 'Footnote' (pps 5) FILE 130 bytes
04 4 'LineMark' (pps 11) FILE 32 bytes
05 5 'PageMark' (pps 13) FILE 5c bytes
06 6 'PaperMark' (pps 12) FILE 24 bytes
07 7 'DocumentText' (pps 4) FILE 130 bytes
08 8 'DocumentMacro' (pps 8) DIR 04.01.2001 05:51:29
09 1 'Macros' (pps 9) DIR 04.01.2001 05:51:29
10 1 'BaseStorage0' (pps a) DIR 04.01.2001 05:51:29
11 1 'InfoStream' (pps b) FILE 8 bytes
12 2 'MacrosStream' (pps c) FILE 2 bytes
13 3 'MacrosStreamStyle3' (pps d) FILE 2 bytes
14 4 ' JSRV_SegmentInformation' (pps e) FILE 1b0 bytes
15 2 ' JSRV_SegmentInformation' (pps f) FILE f0 bytes
16 2 ' JSRV_SegmentInformation' (pps 10) FILE f0 bytes
17 9 'DocumentEditStyles' (pps 3) FILE 38c bytes
18 10 'DocumentViewStyles' (pps 2) FILE 5ab bytes
19 11 ' SummaryInformation' (pps 14) FILE 156 bytes
20 12 ' JSRV_SegmentInformation' (pps 15) FILE 4b0 bytes
21 13 ' JSRV_SummaryInformation' (pps 1) FILE 8f4 bytes
臼田幸生