Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: MKNMZ_SEGMENT (Re: NMZ_MESSAGEandNMZ_CTYPE)
- From: knok@xxxxxxxxxxxxx (NOKUBI Takatsugu)
- Date: Mon, 23 Jul 2001 14:28:18 JST
- X-ml-name: namazu-devel-ja
- X-mail-count: 01702
<200107181412.f6IEC4w09171@xxxxxxxxxxxxxxxxxxxxxxxxxxx>の記事において
taca@xxxxxxxxxxxxxxxxxxxxxxさんは書きました。
>> > それ以外にも、一つのファイルに複数の言語で書かれた文章が入っているよ
>> > うな場合において、それを適切に処理する、ということも考えています。これ
>> > はさすがに今すぐどうすればよいかを思いつけません。
>> これはたいへん野心的ですね。(良い、意味でですよ。)
Omega Project というもっと野心的な Project に inspire されてます ^^;
彼らは言語的処理を typeset の level でまで行なわなければならないので、
もっと大変そうです。
>> > Unicode Version 3 はこの辺を考慮したものらしいので、その枠組とあわせ
>> > て考えてゆけば、将来実現可能かもしれないとは思っています。
>> うーん、そうなのかなぁ? 多言語処理ですぐに頭に浮かぶのはmuleあたり
>> ですね。
いかんせん Unicode の概要しか聞いていないので誤解があるかもしれませ
んが(しかもメモがちゃんととれていない...)、
* encoding の段階で言語の種別が判別できるらしい
* 処理のレベルが段階的にわかれていて、最も高度なレベルにおいては、単語
を区切る処理や読みに応じた sort などの処理ができることが要求される
というような話を伺いました。前者がうまく機能しているのなら、活路は開
けそうです。
--
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx
knok@xxxxxxxxxx / knok@xxxxxxxxxx