Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: kakasi での分かち時の長音の扱いについて教えてください
From: 藤原 誠 / Makoto Fujiwara <makoto@xxxxx>
Subject: [namazu-users-ja] Re: kakasi での分かち時の長音の扱いについて教えてください
Date: Sat, 12 Jan 2002 11:17:55 +0900
> 工藤さん> カタカナや平仮名は分かちしないと思っていたのですが、
> 工藤さん> 長音を含んだ平仮名が、以下の様に分かちされてしまってい
> 工藤さん> ます。
>
> これって、面白いと言っている場合ではないのですが、
>
> 「jis0208 的には長音は片仮名と平仮名の区別がない」
> のに kakasi は、そのことを考慮していない
そう言われても仕方のないところですが、意図としてはちょっと違います。
「jis0208 的には長音は片仮名と平仮名の区別がない」ので、
KAKASI では(決めうちで)カタカナとして扱う
という処理を行っているからです。src/kakasi.c#kakasi_do() の中です。
つまりそうなるのは現在のところは仕様ということになります。しかしな
がら、やはり直せるようなら直しておいた方が良いかとおもいます。
ちなみに、長音記号と同様に、1区の記号のうち特殊な処理をしているも
のには、「仝,々,〆」を漢字として、また「ヽ,ヾ,ゝ,ゞ」をひらがなと
して処理しています。また、5区の「ヵ,ヶ」も、カタカナではなく、漢字
として取り扱っています。
言い訳じみますが、このように乱暴に扱ったのにはそれなりの背景があり
ます。むかしむかしの話(JUMAN は知っていたがChaSenはまだなかったこ
ろ)ですが、KAKASI の「わかち書きもどき処理」をでっちあげたときには、
とりあえずひらがなは無視するという方針で臨みました。当時は、この直
し方に頭を悩ませるより、ひらがなだけからなる語で検索できるようにす
るのは後回しにしてでも他にやること、つまりとにかくなんでもいいから
動く全文検索システムを作るという目標があったので、こういう処理にし
たという経緯があります。昔話ということで勘弁してください。
--
馬場 肇 ( Hajime BABA ) E-mail: hajime.baba@xxxxxxxxx
国立天文台 天文学データ解析計算センター
--