Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: EUCでフォーム部分の文字化けについて



佐々木です。

コメントありがとうございます。

"Komai @home" <GFH05144@xxxxxxxxxxx> wrote:

> 補足です。カンジニアリングで申し訳ないのですが。

いえ、実を言いますとTeraTermProの改行選択のオプションにLFがなく
CRもしくはCR+LFしか選べないことには疑問は持っていました。
ヘルプにも
  CR+LFを選択した場合、送信時に改行文字 CR($0D) を CR+LF($0D $0A)
  に変換します。
としか説明がなく、CRを選択した場合の説明はありません。が、
http://www.sakurachan.org/ml/teraterm/frm00373.html
を読む限りでは、選択としては問題ないようです。

# TeraTermProの話はこちらではこれまでとして、やはり問題が
# あった場合には報告させていただきます

> Namazu は 設定ファイルとかも含めて、改行コードは LF の筈です。
> また、プログラムもそういう前提でかかれている筈です。

道具は道具として、実際にファイルがどうなっているか確認しました。
まずEnterを1回だけ入力したenterというファイルを作成し
# hexdump -c enter
0000000  \n  \n
0000002
#
という結果を得ました。
http://www.idg.co.jp/lw/weekly_1/031208/
などを読む限りCR+LFの\rは存在せずLFの\nです。
(オプションなしの16進表示でも0aでしたので間違いないと思います)

次に"あい"という2文字の日本語を入力したaiというファイル
を調べました。
# nkf -j ai > ai-j
# nkf -s ai > ai-s
# hexdump ai
0000000 a2a4 a4a4 000a
0000005
# hexdump ai-j
0000000 241b 2442 2422 1b24 4228 000a
000000b
# hexdump ai-s
0000000 a082 a282 000a
0000005

あ(0xa4a2)、い(0xa4a4)のEUCコードで保存できており、
現在の環境(TeraTermProでtelnetしviで編集)でEUCコードで保存できて
いることを確認しました。

着目している NMZ.head.ja についてもhexdump -cの結果に\rは含まれな
いことは確認しました。
# hexdump -c NMZ.head.ja | grep '\\r'
#

> で、もし、作業内容自体に、特に問題がなさそうなら、その作業をした
> 前提となっている部分が怪しいのではないか?
> 
> という、カンジニアリングからでした。
> 
> #間違っているかもしれないので、参考意見として下さい。
> #行末が、、、という言葉が少し気になったので。。

これまで特に問題はなかったのであまり気にしていなかった点でしたの
で不安もあり、色々確認することができました。
結果、このあたりの問題はなさそなのですが、解決に至ってはいません。
# もう少し自分でも勘を働かせて調査します

-- 
SASAKI Yoshiaki <NQC38290@xxxxxxxxx>