Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: filterに使用しているアプリケーション



臼田です。

Tadamasa Teranishi wrote:
> > 1.wvHtml(msword.pl)
> >  msword.plは日本語文書についてはword8形式以降のみ対応として
> >  制限していますが、最近のwvHtml(Ver 0.7.3で確認)では特に指定
> 言われて気づきましたけど、これって昔からでしたっけ?
> 昔は word7 形式も変換できませんでしたっけ? 
> (UTF-8 は無理にしても、SJIS で出力したものを変換していたような
> 気がしましたが、記憶違いかな。)
> 
> >  ただし、word7形式のものを変換するとtitle部分のみが文字化け
> >  するのでwvHtmlの変換にもまだ少し問題があるようです。
> 
> word7 の場合、SJIS 出力できませんか? (確かめずに聞いていますが。)
wvHtmlはいつごろからかiconvを要求するようになっており
エンコード指定をして出力できますね
wvHtml --charset=eucJP word6.doc  word6euc.html
としてあげればlvを通す必要がないです。

で、word8のファイルは全てUTF-8で出力できるのですが
word7のものは
<title> 
Namazu ???e?X?g
</title> 
というようにtitle部分だけ化けます。utf-8,sjis,eucJPいずれで出力して
も本文は大丈夫ですがtitle部分のみ化けます。
title部分はsjisのうち最上位ビットがあるものが破壊("?"に置き換え)され
た残骸のように思われます。

> http://www.namazu.org/ml/namazu-users-ja/msg02088.html
のころの0.6.7ではタイトルの抽出ができなかったが
0.7.3ではタイトルの抽出ができるようになった(ただしエンコードに難あり)
ということですね。

ということでこれは現状のままにしておこうと思います。


> > 2.dvi2tty(dvi.pl)
> >  dvi.plからは"J"オプションを付けて呼び出していますが
> ...
> >  同名の別コマンド?なのかどうかわかりませんが、動作が異なる
> >  のでどこかで吸収してあげるのがよいのかなと思います
> 
> 記憶が確かではありませんが、LaTex には NTT 版と ASCII 版があり、
> コマンドのオプションもいろいろ違ったような気がします。
> 
> 私が学生のころ使っていたものは jdvi2tty と頭に 'j' が付いていました
> しね。全バージョン対応はかなり大変かと。
> 
> 結構複雑で面倒だと思いますが、吸収できるようなら吸収してください。
FreeBSDのpackageにはjdvi2ttyというものもあり同時にインストール
していました。
dvi2ttyがそのまま2バイト文字を扱えたのかと思っていたのですが
シンボリックリンクがされていたjdvi2ttyを使っていただけのようで
す。
FreeBSDのpackageにあったdvi2ttyでは"J"オプションは無く、2バイト
文字も扱えないようです。

jdvi2ttyがあったらそれを優先して使うようにしておくとエラーの出る
可能性が低くなるかもしれないです。

でもTexを使う人なら気づいて自分で直しそうなので現状のままにして
おいてもよさそうな気もします。

> > 3.ps2text,ps2ascii(postscript.pl)
> >  manual.htmlに入手先が書かれていないので詳細がわかりませんで
> >  した。
> 梶浦氏作のps2text のURLは、
> http://softpark.jplaza.com/cgi-bin/DL1.cgi/ps2text
> からダウンロードできるようです。
確認いたしました。入手先URLは
doc/ja/manual.htmlに反映すべきですね。

> ps2ascii は、ghostscript に入っていたのではないかと思います。
> ghostscript も、フリー版とアラジン版に分かれてしまったので、
> どこまで共通なのか分かりませんが...。
FreeBSDのpackageではGNU版が使われているようなのですが
ps2asciiはついていないようです。
ps2ascii単体での導入はむずかしそうですね。

FreeBSDのpackageにはpstotextというものがあり
代替品として使えそうなのですが、
tests/data/en/postscript.psを変換したら"full-text"の"-"がなぜ
か文字化けをしました。
どうもうまくいかないです。

臼田幸生