Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: filterに使用しているアプリケーション
- From: Yukio USUDA <m6694ha392t@xxxxxxxxxxxxxxx>
- Date: Thu, 28 Aug 2003 23:01:38 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 03234
- References: <3F4DA5BB.480C780@asahi-net.or.jp>
臼田です。
Tadamasa Teranishi wrote:
> > 1.wvHtml(msword.pl)
> > msword.plは日本語文書についてはword8形式以降のみ対応として
> > 制限していますが、最近のwvHtml(Ver 0.7.3で確認)では特に指定
> 言われて気づきましたけど、これって昔からでしたっけ?
> 昔は word7 形式も変換できませんでしたっけ?
> (UTF-8 は無理にしても、SJIS で出力したものを変換していたような
> 気がしましたが、記憶違いかな。)
>
> > ただし、word7形式のものを変換するとtitle部分のみが文字化け
> > するのでwvHtmlの変換にもまだ少し問題があるようです。
>
> word7 の場合、SJIS 出力できませんか? (確かめずに聞いていますが。)
wvHtmlはいつごろからかiconvを要求するようになっており
エンコード指定をして出力できますね
wvHtml --charset=eucJP word6.doc word6euc.html
としてあげればlvを通す必要がないです。
で、word8のファイルは全てUTF-8で出力できるのですが
word7のものは
<title>
Namazu ???e?X?g
</title>
というようにtitle部分だけ化けます。utf-8,sjis,eucJPいずれで出力して
も本文は大丈夫ですがtitle部分のみ化けます。
title部分はsjisのうち最上位ビットがあるものが破壊("?"に置き換え)され
た残骸のように思われます。
> http://www.namazu.org/ml/namazu-users-ja/msg02088.html
のころの0.6.7ではタイトルの抽出ができなかったが
0.7.3ではタイトルの抽出ができるようになった(ただしエンコードに難あり)
ということですね。
ということでこれは現状のままにしておこうと思います。
> > 2.dvi2tty(dvi.pl)
> > dvi.plからは"J"オプションを付けて呼び出していますが
> ...
> > 同名の別コマンド?なのかどうかわかりませんが、動作が異なる
> > のでどこかで吸収してあげるのがよいのかなと思います
>
> 記憶が確かではありませんが、LaTex には NTT 版と ASCII 版があり、
> コマンドのオプションもいろいろ違ったような気がします。
>
> 私が学生のころ使っていたものは jdvi2tty と頭に 'j' が付いていました
> しね。全バージョン対応はかなり大変かと。
>
> 結構複雑で面倒だと思いますが、吸収できるようなら吸収してください。
FreeBSDのpackageにはjdvi2ttyというものもあり同時にインストール
していました。
dvi2ttyがそのまま2バイト文字を扱えたのかと思っていたのですが
シンボリックリンクがされていたjdvi2ttyを使っていただけのようで
す。
FreeBSDのpackageにあったdvi2ttyでは"J"オプションは無く、2バイト
文字も扱えないようです。
jdvi2ttyがあったらそれを優先して使うようにしておくとエラーの出る
可能性が低くなるかもしれないです。
でもTexを使う人なら気づいて自分で直しそうなので現状のままにして
おいてもよさそうな気もします。
> > 3.ps2text,ps2ascii(postscript.pl)
> > manual.htmlに入手先が書かれていないので詳細がわかりませんで
> > した。
> 梶浦氏作のps2text のURLは、
> http://softpark.jplaza.com/cgi-bin/DL1.cgi/ps2text
> からダウンロードできるようです。
確認いたしました。入手先URLは
doc/ja/manual.htmlに反映すべきですね。
> ps2ascii は、ghostscript に入っていたのではないかと思います。
> ghostscript も、フリー版とアラジン版に分かれてしまったので、
> どこまで共通なのか分かりませんが...。
FreeBSDのpackageではGNU版が使われているようなのですが
ps2asciiはついていないようです。
ps2ascii単体での導入はむずかしそうですね。
FreeBSDのpackageにはpstotextというものがあり
代替品として使えそうなのですが、
tests/data/en/postscript.psを変換したら"full-text"の"-"がなぜ
か文字化けをしました。
どうもうまくいかないです。
臼田幸生