Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 「プロ野球チームをつくろう」検索問題



>「プロ野球チームをつくろう」を KAKASI に辞書登録したら、
[users-ja]の方に書いたことがあるのですが、
それはできません。
かなり前に試したのですが

よみ      漢字

たべる    食べる  ○
ろか      ろ過    ×
こめ      こめ    ×

一文字目が漢字じゃないとmkkanwaは登録してくれません。
mkkanwaを書き換えて無理矢理辞書登録しても今度は
kakasiの方が使ってくれません。
だから
>のように違った“わかち書き”したものを複数回スキャン(index作
>成で嘗める)しないといけないような気がするのです。
これは必要無いことだと思います。
問題はkakasiが「を」を特別扱いしていることだと思います。

解決策はkakasiが「を」を特別扱いしないことと
{ プロ 野球 チーム をつくろう* }のように、
perl版のnamazuクライアントのように前方後方一致とフレーズ検索
の組み合わせが可能になることです。

日本語のフレーズの端っこに平仮名が含まれている場合例えば、
「わたしの名前はなまずです」
を検索する場合
{ *わたしの 名前 はなまずです* }
で検索しないと正確には見つかりません。
でもこれが可能ならば有るはずの言葉がみつからないというケース
が無くなると思います、namazu.cgi側の負荷が(思い切り)増えそうですけど。

でも高々ひとつのwebサイトの検索なら
  プロ and 野球 and チーム and をつくろう*
                                         ↑前方一致
で十分絞れると思いますが・・・


この話はすべてchasenを使わないと仮定しての話です。