Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Unicode(UTF-8) 文書とUnicode文字検索
- From: Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx>
- Date: Sun, 23 May 2004 14:35:01 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 03886
- References: <20040523130923.028D.MLC08520@nifty.com>
寺西です。
MLC08520@xxxxxxxxx wrote:
>
> UTF-8文書とUnicode文字の検索について教えてほしいことがあります。
正式には対応していません。
> Namazu-2.0.13では、Unicode(UTF-8)で書かれた日本語文書のうち、
nkf 2.0.4 以降を使えば、UTF-8 で書かれた文書であっても、インデックス
は作れます。ただし、インデックスの中身は EUC-JP なので、EUC-JP に
含まれない文字は、ここで消えてしまいます。
> ・Shift-JISやEUCにはないUnicode文字を検索することができますか?
できません。内部処理は EUC-JP となっているため、EUC-JP にない文字
は検索できません。
> 私がやりたいのは前者で、イメージ的にはGoogleのようなイメージを想定してい
> ます。Googleと同じようにしようと思い、NMZ*.jaテンプレートをUnicode(UTF-8)
Google と同じというのが、どういう意味なのか説明が不十分ですが、
何にしても EUC-JP にはないUnicode文字を検索することはできません。
> で保存し、Unicode(UTF-8)で書いた文書のインデックスを作成して検索すると、
> 検索結果のウェブページはUTF-8で出力されましたが、検索結果のあたりだけが
> 文字化けしてしまいました。
結果の出力に関しては Windows 版では Shift_JIS、UNIX 版では EUC-JP に
事実上限定されており、UTF-8 で出力することはできません。(日本語の場合)
また、検索文字列も UTF-8 で入力することはできません。
このうち、インデックスを UTF-8 で作成、結果を UTF-8 で出力、検索文字列
を UTF-8 で入力する機能に関しては、開発版(utf8ブランチ)で開発をすす
めています。(ちょっと停滞していますが、いずれ...。)
しかし、分かち書き処理が完全に UTF-8 に対応しないことには、
EUC-JP にはない Unicode文字を検索できるようにはならないかもしれません。
(kakasi は、UTF-8 の入力を受け付けますが、内部で EUC-JP に変換して
処理しています。まぁ、kakasi 以外を使うという手はありますが...。)
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E