Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: File::Magicでの挙動
寺西です。
Taiji.Can@xxxxxxxxxxxxxxxxxxx wrote:
>
> Mac の pdf ではないのですが、時として *.doc もかなり 未対応の形式
> になって
> しまいます。パスの途中で日本語のpath(%B5....) 等の場合だけかと思って
> いましたが、そうでもないようです。
この Word ファイルも Mac で作成されたもので、Mac バイナリになって
いるという可能性はないのでしょうか?
もし、その可能性があるなら、先の PDF と同じ理由によるもので、
namazu-devel-ja#03412 に書いたように
> PDF 以外でも起こりうる問題だと思いますので、次のようにするのが
> 良いかと思います。
> Mac バイナリを各フィルタにそのまま渡すのも何だかまずい
ということだと思います。
そうではないなら、wvHtml のバージョンは何でしょう?
> % wvhtml /XX/XXXXX/XXX/aa.doc aa.html
> % nkf -e aa.html |more
> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.or
> g/TR/REC-html40/loose.dtd">
> <html>
> <head>
> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=UTF-8">
> <META NAME="GENERATOR" CONTENT="wvWare/wvWare version 0.7.6">
Namazu 2.0.12 は wvWare 0.7.6 には対応していませんが、msword.pl は
最新のものに差し替えているのでしょうか?
> と、言う感じでちゃんと出来ていそうな気がするのですが判定では 未対応 と
> なるので、index 化されていないと思われます。先日の判定に使用した
> File スクリプトでの判断でも application/msword と、なります。
File で認識しているのに、mknmz で判定できていないのでしょうか?
それは不思議な話です。(wvWare 0.7.6 だから?)
> このような場合の対処はどのように考えていけば良いでしょうか?
> Solaris の頃もあったのですがこちらはまだ仮運用だったのであまり気に
> していませんでした。
Solaris の場合は更に iconv からみの話があって、きちんと設定しないと
日本語が化けるという別の話もあります。
> File:Magic の問題かは分からないのですが、ファイルタイプの誤認?なので
> ここへ繋ぎました。
問題が再現できるファイルを提供していただくことが、解決の近道かも
しれません。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E