namazu-ml(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

kakasi -ieuc



こんにちは、まつむらです。

FreeBSD-2.2.7, Namazu-2.0, kakasi-2.3.1, nkf-1.62 という
環境なのですが、mknmz 時に文字コードがうまく認識されない
ようなので質問させて下さい。File::MMagic 以外の perl
モジュールは使用していません。

./target_dir/ にインデックスの対象としたいファイルがあります。
これらの文字コードは SJIS です (少なくとも (mule 付属の)
coco -q で調べると、*sjis*unix* と表示されます)。

  % mknmz target_dir
でインデックスを作成しようとすると、
  ...(略) ...
  212/213 - /usr/home/username/target_dir/file1.html [text/html]
  213/213 - /usr/home/username/target_dir/file2.html [text/html]
  Writing index files...
  [Base]
  Date:                Wed Feb 23 06:34:54 2000
  Added Documents:     213
  Size (bytes):        159,416
  Total Documents:     213
  Added Keywords:      3,327
  Total Keywords:      3,327
  Wakati:              /usr/home/username/install2/bin/kakasi -ieuc -oeuc -w
                                                              ^^^^^
  ...(略) ...

と入力を EUC と見なして kakasi が実行されるようです。その結果、
kakasi が わかち書きの出力を行う段階で化けてしまいます。手動で
  % kakasi -isjis -oeuc -w < file
とすると、うまく わかち書きできていることは確認しています。


入力コードはどこかで明示的に指定しなければいけないもの
なのでしょうか。それとも、自動的に判別するはずが、うまく
機能していないのでしょうか。

実際にインデックスの対象としたいファイルは
  http://X68000.startshop.co.jp/~68user/namazu2/target-dir/
です。
# 元はただの HTML ファイルですが、一部のタグを切って、
# ファイルサイズを減らしたものです

また、化けた表示は
  http://X68000.startshop.co.jp/~68user/namazu2/namazu2.cgi?query=jp&whence=0&max=20&result=normal&sort=score
のようになります。

よろしくお願いします。