Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: 「プロ野球チームをつくろう」検索問題
>「プロ野球チームをつくろう」を KAKASI に辞書登録したら、
[users-ja]の方に書いたことがあるのですが、
それはできません。
かなり前に試したのですが
よみ 漢字
たべる 食べる ○
ろか ろ過 ×
こめ こめ ×
一文字目が漢字じゃないとmkkanwaは登録してくれません。
mkkanwaを書き換えて無理矢理辞書登録しても今度は
kakasiの方が使ってくれません。
だから
>のように違った“わかち書き”したものを複数回スキャン(index作
>成で嘗める)しないといけないような気がするのです。
これは必要無いことだと思います。
問題はkakasiが「を」を特別扱いしていることだと思います。
解決策はkakasiが「を」を特別扱いしないことと
{ プロ 野球 チーム をつくろう* }のように、
perl版のnamazuクライアントのように前方後方一致とフレーズ検索
の組み合わせが可能になることです。
日本語のフレーズの端っこに平仮名が含まれている場合例えば、
「わたしの名前はなまずです」
を検索する場合
{ *わたしの 名前 はなまずです* }
で検索しないと正確には見つかりません。
でもこれが可能ならば有るはずの言葉がみつからないというケース
が無くなると思います、namazu.cgi側の負荷が(思い切り)増えそうですけど。
でも高々ひとつのwebサイトの検索なら
プロ and 野球 and チーム and をつくろう*
↑前方一致
で十分絞れると思いますが・・・
この話はすべてchasenを使わないと仮定しての話です。