namazu-ml(ring)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
kakasi -ieuc
- From: Matsumura Naoki <j5306050@xxxxxxxxxxxxxxxx>
- Date: Wed, 23 Feb 2000 06:49:22 +0900
こんにちは、まつむらです。
FreeBSD-2.2.7, Namazu-2.0, kakasi-2.3.1, nkf-1.62 という
環境なのですが、mknmz 時に文字コードがうまく認識されない
ようなので質問させて下さい。File::MMagic 以外の perl
モジュールは使用していません。
./target_dir/ にインデックスの対象としたいファイルがあります。
これらの文字コードは SJIS です (少なくとも (mule 付属の)
coco -q で調べると、*sjis*unix* と表示されます)。
% mknmz target_dir
でインデックスを作成しようとすると、
...(略) ...
212/213 - /usr/home/username/target_dir/file1.html [text/html]
213/213 - /usr/home/username/target_dir/file2.html [text/html]
Writing index files...
[Base]
Date: Wed Feb 23 06:34:54 2000
Added Documents: 213
Size (bytes): 159,416
Total Documents: 213
Added Keywords: 3,327
Total Keywords: 3,327
Wakati: /usr/home/username/install2/bin/kakasi -ieuc -oeuc -w
^^^^^
...(略) ...
と入力を EUC と見なして kakasi が実行されるようです。その結果、
kakasi が わかち書きの出力を行う段階で化けてしまいます。手動で
% kakasi -isjis -oeuc -w < file
とすると、うまく わかち書きできていることは確認しています。
入力コードはどこかで明示的に指定しなければいけないもの
なのでしょうか。それとも、自動的に判別するはずが、うまく
機能していないのでしょうか。
実際にインデックスの対象としたいファイルは
http://X68000.startshop.co.jp/~68user/namazu2/target-dir/
です。
# 元はただの HTML ファイルですが、一部のタグを切って、
# ファイルサイズを減らしたものです
また、化けた表示は
http://X68000.startshop.co.jp/~68user/namazu2/namazu2.cgi?query=jp&whence=0&max=20&result=normal&sort=score
のようになります。
よろしくお願いします。