Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: はじめましてタイからの参加です。
- From: knok@xxxxxxxxxxxxx (NOKUBI Takatsugu)
- Date: Thu, 6 Sep 2001 15:53:36 JST
- X-ml-name: namazu-users-ja
- X-mail-count: 02019
<000901c135cb$f9259eb0$f6bdfea9@Aptiva>の記事において
nlug@xxxxxxxxxxxxxxxxxさんは書きました。
>> > document にもありますが、例えば TCP/IP という 単語があると tcp/ip,
>> > tcp, ip をインデックスに記録します。この辺りがタイ語に対して余計な処理
>> > を行なっているのかもしれません。
>> 日本語でも、記号と単語(カッコ等)の混ざった変な言葉がインデックスされますが、
>> ドキュメントの方になぜかが書いてありましたので、動作に問題無いので気にしなく
>> ても大丈夫ではないでしょうか?
私が書きたかったことを具体例を上げて説明してみます。
たとえばタイ語で abc という単語があって、それが ASCII encoding では
x/y にみえるような場合だと、x, y が余計な単語としてインデックスされて
しまいます。
こういう状況になるのではないかということを、
: タイで利用される encoding については詳しくないのですが、もしかすると
: ASCII に相当する部分が利用されていると、このような問題が起きるかもしれ
: ません。
という部分で示していたつもりです。
しかし、今ちょっと tis620 のコード表をみてみたのですが、この予想は正
しくなかったようです ^^; 0x00-0x7f は ASCII と同じようでした。
>> マルティリンガルを目指すなら、Unicodeへの対応が必要だと感じます。開発版の方
>> がどのようになっているかは分かりませんが、近い将来、Unicodeに置き換わること
>> は他のプログラムを見ていても目に見えています。
検索は言語に依存した処理も多くあるので、encoding 以外にも障害はいろ
いろあるだろうとは予測しています。Unicode (version 3?)だけで解決できな
い問題もあるでしょうし、それらも含めてどうすべきかは今後とも検討してい
かなければならないと思っています。
--
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx
knok@xxxxxxxxxx / knok@xxxxxxxxxx