Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: File::Magicでの挙動



寺西です。

Taiji.Can@xxxxxxxxxxxxxxxxxxx wrote:
> 
>   Mac の pdf ではないのですが、時として *.doc もかなり 未対応の形式 
> になって
>   しまいます。パスの途中で日本語のpath(%B5....) 等の場合だけかと思って
>   いましたが、そうでもないようです。

この Word ファイルも Mac で作成されたもので、Mac バイナリになって
いるという可能性はないのでしょうか?

もし、その可能性があるなら、先の PDF と同じ理由によるもので、
namazu-devel-ja#03412 に書いたように
 > PDF 以外でも起こりうる問題だと思いますので、次のようにするのが
 > 良いかと思います。
 > Mac バイナリを各フィルタにそのまま渡すのも何だかまずい
ということだと思います。

そうではないなら、wvHtml のバージョンは何でしょう?

> % wvhtml /XX/XXXXX/XXX/aa.doc aa.html
> % nkf -e aa.html |more
> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.or
> g/TR/REC-html40/loose.dtd">
> <html>
> <head>
> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=UTF-8">
> <META NAME="GENERATOR" CONTENT="wvWare/wvWare version 0.7.6">

Namazu 2.0.12 は wvWare 0.7.6 には対応していませんが、msword.pl は
最新のものに差し替えているのでしょうか?

>   と、言う感じでちゃんと出来ていそうな気がするのですが判定では 未対応 と
>   なるので、index 化されていないと思われます。先日の判定に使用した
>   File スクリプトでの判断でも application/msword と、なります。

File で認識しているのに、mknmz で判定できていないのでしょうか?
それは不思議な話です。(wvWare 0.7.6 だから?)

>   このような場合の対処はどのように考えていけば良いでしょうか?
>   Solaris の頃もあったのですがこちらはまだ仮運用だったのであまり気に
>   していませんでした。

Solaris の場合は更に iconv からみの話があって、きちんと設定しないと
日本語が化けるという別の話もあります。
 
>   File:Magic の問題かは分からないのですが、ファイルタイプの誤認?なので
>   ここへ繋ぎました。

問題が再現できるファイルを提供していただくことが、解決の近道かも
しれません。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E