Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
タイ語分かち書き (Re: [namazu-users-ja] はじめましてタイからの参加です。)
- From: Hajime BABA <hajime.baba@xxxxxxxxx>
- Date: Wed, 15 Aug 2001 23:36:44 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 01866
- References: <005301c12479$79a53f00$0401a8c0@anet.net.th> <20010815232630D.hajime.baba@nao.ac.jp>
namazu-devel-ja に振ります。
From: Hajime BABA <hajime.baba@xxxxxxxxx>
Subject: [namazu-users-ja] Re: はじめましてタイからの参加です。
Date: Wed, 15 Aug 2001 23:26:30 +0900
> とりあえず、以下の変更を行うことで、タイ語の分かち書きをしつつイン
> デックスを作成する(作成しているらしい)ことには成功しました。こちら
> で実験したのは Linux 環境ですが、Windows 環境でも動くはずです。
タイ語の分かち書きについてざっと調べてみました。参考になれば。
namazu-users-ja に流したものはあくまでも実験なので、多言語化のフレー
ムワークをどうすればいいかは、安部さん他におまかせする方が確実なの
でおまかせしますが、「とにかく動けばいいか」というイイカゲンな精神
なら、cttex などを組み込むことはさほど難しくないのではないかという
気はします。
タイ語
Thai Software
http://thaigate.nacsis.ac.jp/files/index.html
Thai Open Source Developer Network
http://developer.thai.net/
http://www.links.nectec.or.th/
などから
CTTeX : General-Purpose Thai word segmentation program
ThaiTool Perl Module for Thai Word Segmentation (ttool-0.5.tar.gz)
LibInThai
http://developer.thai.net/libinthai/
ss (Simple thai word Separator)
http://members.nbci.com/theera/ss/
swath - Smart Word Analysis for THai
http://www.links.nectec.or.th/
などが取ってこれます。いずれもLinux 上でもコンパイル可能。
なお、X での表示には xiterm+thai が使えます。
ftp://ftp.loxinfo.co.th/pub/unix/thai/ とかに rpm があります。同じ
ところにあるタイ語フォントを入れてやれば、なにやら表示できます(も
ちろん読めませんが)。deb もあるようです。ただ、入力方法がわかりま
せんでした。xiterm は cut&paste がうまくいかないし。Emacs の quail
でどうこうするの?
いろいろ見た限りでは、cttex が標準的なようですが、ざっと試した範囲
では、cttex も ss も swath も(LibInThai は試してませんが)、あまり
変わらないように見えます。cttex だと、
% cttex -w < thai.txt > thai_seg.txt
すると、単語間に <WBR> という文字列が入るので、適当にスペースにで
も置換してやればよさげ。ss なら、
% ss thai.txt > thai_seg.txt
とするだけで分かちがきします。swath なら
% swath -b " " < thai.txt > thai_seg.txt
とすれば良いようです。いずれもxiterm 上で分かれることは確認しまし
た。むろん「正しく」わかれているかどうかは別ですけど。いずれも速度
差はほとんどなく十分に高速です。ライセンスは、cttex と ss が GPL,
swath は freely distributable なようです。
# おまけ:ローマ字表記されたタイ語のテキストを,
# 本当のタイ語テキストに変換するプログラム rth2th
# http://www.jsdi.or.jp/~maczuka/programs/rth2th.txt
--
馬場 肇 ( Hajime BABA ) E-mail: hajime.baba@xxxxxxxxx
国立天文台 天文学データ解析計算センター
--