Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
pluggable splitter (Re: "oshirase" and "me-rusa-ba" problems)
- From: Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx>
- Date: Wed, 05 Apr 2000 16:33:54 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 00303
- References: <199912141143.UAA07379@ring.etl.go.jp>
この問題はずっと放置してあったわけだけど。
Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx> wrote:
>「お知らせ問題」について。
>
>ChaSen を用いてインデックスを作成すると「お知らせ」が 1つの
>単語として登録されます。しかし、検索時には「お」「知らせ」の
>ように分割されてしまうため、検索できません。
>
>「メールサーバ問題」について。
>
>ChaSen を用いてインデックスを作成すると、「メールサーバ」は
>「メール」「サーバ」と 2つの単語に分かれて登録されます。しか
>し、検索時には「メールサーバ」のままで、分割されないため、検
>索できません。
考えてみれば、これは libchasen を使えば解決する話ですね。わ
かち書きの処理を簡単に切り替えられるように、きちんと抽象化す
るといいと思います。
namazurc の設定はこんな感じ:
Splitter C internal whitespace # LANG=Cなら空白区切り
Splitter ja internal adhoc # 安易な手法 (現在の実装)
Splitter ja internal libchasen # libchasen を使う
Splitter ja internal libkakasi # libkakasi を使う
Splitter ja external kakasi -ieuc -oeuc -w # kakasi コマンドを使う
Splitter ja external chasen -j -F '\%m ' # chasen コマンドを使う
この辺りをちょっと考えてもらえます? > 野首さん
-- Satoru Takabayashi