Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Word ・ Excelのインデックスがうまくできない
寺西です。
zyoru@xxxxxxxxxxxxxx wrote:
>
> > wvWare 0.7.2 というのが微妙ですが、たぶん 0.7.2 までは Namazu 2.0.12
> > はサポートしていたと思います。
> >
> > % wvWare test.doc | lv -Iu8 -Oej > word.html
> >
> > と Namazu を通さず、wvWare で処理した word.html は期待した結果
> > が得られているでしょうか。まずは、それを確認してください。
...
> wvWare,xlhtmlで処理した結果、どちらのHTMLファイルも元のWordとExcelの文書で入力
> した部分が文字化けを起こしていました(両方ともUTF-8で出力されたのと何か関係があ
> るかも知れません…)
ちなみに word.html は EUC コードになっています。
内容の確認は vi なり less なりで確認してください。
(端末は EUC が表示できる状態にしてください。)
word.html は、Webブラウザでは確認しないでください。
これは生成された html の charset が UTF-8 のままなので、lv で EUC に
変換するとつじつまがあわなくなるためです。
もし、vi なり less なりで確認した場合でも文字化けを起こしているのなら
lv が正しく utf8 -> euc の変換ができていないことになります。
この場合は、
% wvWare test.doc | nkf -W -e > word.html
で、文字化けしないかどうかを確認してください。
(nkf 2.02 は utf-8 -> euc 変換が可能)
nkf でも文字化けしているようなら、変換がおかしいのではなくて、
確認する際の端末設定のミスの可能性が高いです。
nkf は正しく EUC に変換していて、lv が変換できていないのなら、lv を
疑いましょう。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E