Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: EUC-JP strings in perl scripts



寺西です。

knok@xxxxxxxxxxxxx wrote:
> 
> At Tue, 27 Jan 2004 19:27:47 +0900 (JST),
> Akira TAGOH wrote:
> > また,regexpをそのままなので,単純に例えば翻訳者がそれをみて
> > 正しく動作するものが出てくるかというところにもやや疑問を感じ
> > ますし,もうちょっと考えてみてもいい部分ではないでしょうか?
> > このへんの文字列を簡単に追加できるようなしくみも必要だったり
> > しませんかね? そういうのを各言語とencoding毎に保存して…とか.
> 
>   実際にこれらが適用されるのは、man の出力や mail の cite といったとこ
> ろをいじる箇所なので、言語ごとに大きく異なるところだとは思います。
> regex だけでなく、コードレベルでも手を入れる必要ももしかするとあるかも
> しれません。

はい。そう思います。namazu-devel-ja#03626 に書いた

 > (何でも日本語と同列に同じ処理ができるわけではないので、
 > 言語にとわず共通の処理でできるラベルは、様々な言語を加えて記述し、
 > ある言語依存の処理に使うラベルは、その言語のみで記述すると
 > いったことになるのかもしれません。)

この辺りの話は、上記のコードレベルで手をいれる話と関係する
ものとお考えください。

> > パッチの中身を見ずに書くのも何ですが、
> > EUC 前提の mknmz に utf8 の物を別途用意していて、うまくいくような
> > 仕組みが仕掛けられているのですか?
> 
>   util.pl に新たな関数を用意し、id に対応する text にかかれた文字列を
> 取得するような形になっています。なので、そこで encoding の変換も同時に
> 行うことはできそうです。

ええ、ただ現状は、内部コード(つまりは eucJP)と同じファイルを用意
すれば済む話です。
ファイルだけ UTF-8 で、eucJP に変換して使うことはできますが、今、
このファイルを UTF-8 にするメリットはほとんどありませんし、この
ファイルを UTF-8 化するのは後でも簡単にできるでしょう。
内部コードを UTF-8 にする方が先かと思います。

> > > どうせなら langspec.txt は utf8 に統一してしまって、日本語以外の情報も
> > > その中に入れられるようにして、適時 encoding 変換をする、という形にする
> > > とより汎用的かなあ、という気もします。
> >
> > うーんと、詰め込んじゃうのはダメなんではないかと思いますが。
> 
>   現状 pl/ 以下に langspec.txt や langspec.txt-ja といったファイルが保
> 持されているので、そこにファイルが増えるのはちょっといやだなあ、という
> 感覚がありました。むしろ langspec/ja.txt というように別途ディレクトリ
> を増やして言語ごとに保存する方が良いですね。

ここは意見をひっくりかえして、langspec.txt に詰め込んじゃいま
しょうか? にしちゃいます。
ただし、encoding の変換は行わないというのが条件ですね。

# もっとも、langspec.txt に詰め込んじゃったら、外国の方がちょっと
# 拡張しようと思っても、無理かもしれません。ひいてしまうかも。

ちなみに pl/ 以下ではなくて、filter/ 以下のようで、それはちょっと
気持ち悪いですけど...。適当な場所ってどこだろう。

>   別解として、gettext を使うことも考えてみたのですが、こういう用途に用
> いるのはどうなんでしょう... やっぱり違うかな。

考えたんですが、使えないわけはないと思いますが、ちょっと違うかな
とは思いますね。難しい。

単純に翻訳すれば良いというものではないだけに、大変です。
また、日本語の代わりに使うというわけではなくて、日本語と一緒に
使うことになるのかと思うので、まとまっている方がプログラムと
しては都合が良いでしょう。

# 変換対象のファイルの言語が特定できれば、言語ごとに処理を変えられる
# のかな。この辺りは、あまりよく理解できていません。 
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E