Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Word ・ Excelのインデックスがうまくできない
臼田です
<zyoru@xxxxxxxxxxxxxx> wrote:
> mknmz -Cを実行した結果は以下の通りでした
略
> 対応メディアタイプ:
> application/excel
> application/msword
> application/powerpoint
> application/x-gzip
> message/news
> message/rfc822
> text/hnf
> text/html
> text/html; x-type=mhonarc
> text/plain
> text/plain; x-type=rfc
最初の例ではpdfが処理できていたようですが
今回の出力ではpdfの行がないのが不思議ですね
> > wvWare 0.7.2 というのが微妙ですが、たぶん 0.7.2 までは Namazu 2.0.12
> > はサポートしていたと思います。
> >
> > % wvWare test.doc | lv -Iu8 -Oej > word.html
> >
> > と Namazu を通さず、wvWare で処理した word.html は期待した結果
> > が得られているでしょうか。まずは、それを確認してください。
> >
> > 同様に excel の方も以下の結果を確認してください。
> >
> > % xlhtml -m test.xls | lv -Iu8 -Oej > excel.html
> >
> wvWare,xlhtmlで処理した結果、どちらのHTMLファイルも元のWordとExcelの文書で入力
> した部分が文字化けを起こしていました(両方ともUTF-8で出力されたのと何か関係があ
> るかも知れません…)
文字化けしているというのはどのような状態ですか?
wvWare,xlhtmlがUTF-8で出力しているのは正常です。
lvを通すことでeucにしています。
ただし、htmlファイル内の
CONTENT="text/html; charset=UTF-8"
という指定はそのまま残るので上記の確認方法でできる
htmlファイルはWebブラウザで見ると文字化けして見えます。
文字コードをeuc指定にして表示しても読めませんか?
エディタで開いてみても読めないでしょうか?
臼田幸生