Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: セクション区切りを含むMS-Word文書のインデックス作成の不具合 (namazu-bugs-ja#2683)
寺西です。
nature_photo@xxxxxxxxxxxxxx wrote:
>
> [現象]
> MS-Word文書(*.doc)がセクション区切りを含んでいる場合、インデックス作成時に、その最初のセクション区切り以降の文書内容が無視されてしまう。
セクションに対応していなかったようです。
> [推測される原因]
>
> (例)の文書をwvWareでhtmlへ変換すると後掲のようになる。
> セクション区切りが挿入されている1ページ目と2ページ目の間で
>
> ---------------------------
> <!--Section Ends-->
>
> <!--Section Begins--><br>
> ---------------------------
>
> が出力される。
>
> 一方、msword.pl164行目の
> $$cont =~ s/<!--Section Ends-->.*$//s;
>
> により<!--Section Ends-->以下のテキストは切り詰められてしまう。
> 従って、2ページ目以降のテキストはmknmzへ渡されず、インデクシングされないことになる。
その通りです。
> [回避策]
> /usr/local/share/namazu/filterディレクトリにあるmsword.plの
>
> 164 $$cont =~ s/<!--Section Ends-->.*$//s;
>
> をコメントアウトし、インデックスを作成する。
これでは、<!--Sections Ends--> 以降の不要な文書を削除するという
本来の意味が失われてしまいます。
一番最後の <!--Section Ends--> 以降は削除しないといけないでしょう。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E