namazu-ml(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Non wakatigaki



古川です。

その昔、
From: Rei FURUKAWA <furukawa@xxxxxxxxxxxxxxxx>
Date: Thu, 26 Nov 1998 19:09:00 +0900
furukawa>ところで、実行に移したことはないんですが、
furukawa> > この方法でも辞書に頼っていることに代わりはないのでひらがなには弱い
furukawa> > のですが、このさい日本文字は辞書に頼らずすべて 1文字ずつインデック
furukawa> > スに登録してしまえば、川戸さんの要望にかなうものになるかもしれませ
furukawa> > ん。

furukawa>のようなことは、私も考えていました。といっても、これは、kakasi の辞書を
furukawa>置けない環境でも使えるように、というセコい理由なのですが。

という話をしたことがあったのですが、これをやってみました。

(1) -i というオプションをつけると、内蔵の簡易わかち書きルーチンを
    使います。

(2) 簡易わかち書きルーチンでは、辞書を使わず、上の (1) の文は、

        -i_という_オプション_をつけると_、_内_蔵_の_簡_易_わかち_
        書_き_ルーチン_を_使_います

    (空白を '_' で表しています)
    てな感じになります。

(3) 「内_蔵」「簡_易」といった文字の連なりは、NMZ.p に登録されたハッ
    シュに頼ることになるので、ノイズを減らすため、
        漢字 -> 漢字
        カタカナ語 -> カタカナ語 (実際には、これは無いはず)
        1byte文字列 -> 1byte文字列
    の並びしか登録しません。

(4) また、ディスク容量の節約も主眼に置いているので、ひらがなは単語と
    しても登録されません。つまり、自動的に HiraganaOpt が指定されてい
    るのと、似た挙動になります。

    ここで「同じ」ではなく「似た」と言っているのは、ひらがなを削除する
    タイミングが違うためです。HiraganaOpt だと、わかち書き直後にひらが
    なが削除されるため、(1) の文の後半は、
        内_蔵_簡_易_書_ルーチン_使
    となり、「蔵_簡」「易_書」といった phrase が出現し、ノイズの原因に
    なりますので、-H は指定しないほうがいいでしょう。


(5) 1.3.0.x 用のパッチもありますが、興味のある方はいらっしゃいますか?

Attachment: InternalWakati.patch.gz
Description: Binary data