Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: UFT-8 の HTML ドキュメントで文字化け



こんにちは。佐川です。

以下の引用部分は' Mitsuo Satou 'さんの
"[namazu-win32-users-ja] UFT-8 の HTML ドキュメントで文字化け"からのものです。
 >ども、佐藤@自宅です。
 >
 >PHPの日本語マニュアル
 > http://snaps.php.net/manual/ja/manual-ja-current.tar.gz
 >
 >をダウンロードして、Namazu 2.0.5 でインデックスを作りましたが、HTML
 >が UTF-8 のため文字化けしてしまいます。
(snip)
 >上記環境で何か不足なのでしょうか。
 >・Linuxでは lv を使いますが、Win32も lv が必要なのかな…
namazuやkakasiなどは、UTF-8などのunicodeに対応していません。
したがって、
xlHtmlのように、インデックス時にパイプを使って変換するか、
インデックスもとのファイルのエンコーディングを変更する
というかのいずれかの処理を行い、
インデックスを作るときに、
あらかじめ、JIS X0208ベースのエンコーディング
(EUC-jp, Shift_JIS, iso-2022-jp)に変換する必要があります。

# PHPの日本語マニュアルは、もともとEUC-jpの文書をUTF-8に変換したので、
# ほとんどの文書はJIS X0208で表せる文字で表現されていると思います。

 >#PHPの日本語マニュアルは1800近いファイル数なので、Namazuで検索したい
 >#のです(^^;
塚田さんの作られた、検索ページがあります。
最近、http://www.php.gr.jp/が不調だったので告知が遅れていますが、
http://www.net-newbie.com/ からたどることができます。
# PostgreSQLとインデックスが同じですがね。

文字コードの変換ツールにお困りならば、
PHP3.0.18-18n-jaをお使いください。(笑)
# ちょっとしたスクリプトを書く必要がありますが。
http://www.cityfujisawa.ne.jp/~louis/apps/phpfi/win/

METAタグのことを考慮しなければ、
tconv( http://www.piedey.co.jp/softs/tconv.html )や、
lv( http://www.ff.iij4u.or.jp/~nrt/lv/ )でもOKです。

では。

☆・・・・‥‥‥‥‥‥…‥‥‥‥‥‥・・・・
  佐川  昭宏       mailto:sagawa@xxxxxxxxxx
                  http://pelican.sohgoh.net/
  ・・・・‥‥‥‥‥‥…‥‥‥‥‥‥・・・・☆