Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Word 文書だけ検索できません
北川です。
> 岡埜です
>
> wvは使っていませんがmsword.plを覗くと
> 途中でutf8からeucに変換しているらしきところがあるので
> この点は問題にはならないと思います。
> wv-0.7.0が使えるかどうかは知りません。
どうもありがとうございます。
これは知っております。
実は、
wvHtml filename1 fileneme2
とすると本文がUTF-8にエンコードされてHTML文で出力されます。
一方、
wvHtml charset=cp932 filename1 fileneme2
とすると本文がシフトJISにエンコードされ、
wvHtml charset=euc-jp filename1 fileneme2
とすると本文がEUCにエンコードされて出力されます。
ところが、文字コードが良く分からないのですが、いずれも、例えば、
<div name="hA" align="left"
というように、スタイルを表現する部分はWORDの内容そのままが記述され、
文字コードが変換されていないのです。分かりやすいのが、WORD6やWORD95
の文章で、これらはこの部分がシフトJISで記述されています。つまり、
<div name="標準" align="left"
という風にです。
これが、影響していないかということが知りたかったのです。
少なくとも、変換文はNetscapeでは読めることは事実です。従って、インデ
ックス化までの過程で何かが起こっていると考えてます。
時間があまり取れないのですぐには検証できませんが、msword.plを変更して
、一度、WORD6やWORD95のファイルをシフトJISで出力させて調べてみるつも
りです。
結果が出ましたら、報告します。