Namazu-win32-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: UFT-8 の HTML ドキュメントで文字化け
こんにちは。佐川です。
以下の引用部分は' Mitsuo Satou 'さんの
"[namazu-win32-users-ja] UFT-8 の HTML ドキュメントで文字化け"からのものです。
>ども、佐藤@自宅です。
>
>PHPの日本語マニュアル
> http://snaps.php.net/manual/ja/manual-ja-current.tar.gz
>
>をダウンロードして、Namazu 2.0.5 でインデックスを作りましたが、HTML
>が UTF-8 のため文字化けしてしまいます。
(snip)
>上記環境で何か不足なのでしょうか。
>・Linuxでは lv を使いますが、Win32も lv が必要なのかな…
namazuやkakasiなどは、UTF-8などのunicodeに対応していません。
したがって、
xlHtmlのように、インデックス時にパイプを使って変換するか、
インデックスもとのファイルのエンコーディングを変更する
というかのいずれかの処理を行い、
インデックスを作るときに、
あらかじめ、JIS X0208ベースのエンコーディング
(EUC-jp, Shift_JIS, iso-2022-jp)に変換する必要があります。
# PHPの日本語マニュアルは、もともとEUC-jpの文書をUTF-8に変換したので、
# ほとんどの文書はJIS X0208で表せる文字で表現されていると思います。
>#PHPの日本語マニュアルは1800近いファイル数なので、Namazuで検索したい
>#のです(^^;
塚田さんの作られた、検索ページがあります。
最近、http://www.php.gr.jp/が不調だったので告知が遅れていますが、
http://www.net-newbie.com/ からたどることができます。
# PostgreSQLとインデックスが同じですがね。
文字コードの変換ツールにお困りならば、
PHP3.0.18-18n-jaをお使いください。(笑)
# ちょっとしたスクリプトを書く必要がありますが。
http://www.cityfujisawa.ne.jp/~louis/apps/phpfi/win/
METAタグのことを考慮しなければ、
tconv( http://www.piedey.co.jp/softs/tconv.html )や、
lv( http://www.ff.iij4u.or.jp/~nrt/lv/ )でもOKです。
では。
☆・・・・‥‥‥‥‥‥…‥‥‥‥‥‥・・・・
佐川 昭宏 mailto:sagawa@xxxxxxxxxx
http://pelican.sohgoh.net/
・・・・‥‥‥‥‥‥…‥‥‥‥‥‥・・・・☆