Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: 「プロ野球チームをつくろう」検索問題
馬場@京大宇宙物理 です。
From: 小関 吉則 (KOSEKI Yoshinori) <kose@xxxxxxxxxxxxxxxxxx>
Subject: [namazu-devel-ja] 「プロ野球チームをつくろう」検索問題
Date: 17 Apr 2000 11:55:32 +0900
> kose> http://www.sega.co.jp/
# セガは、昔は SSE だったですね。
# 昨年の後半には Namazu に移行したようですが。
> kose> で検索しても、検索できなかったということなのですよね。
> プロ野球チームをつくろう
> で検索しても見つかりません。
> プロ 野球 チーム つくろう
> で検索すれば見つかります。
うーむ、これは、「を」の扱いが違うからですね。
# またか、とおもわれるかもしれませんが...
http://www.sega.co.jp/ で、
[1] 検索式: プロ野球チームをつくろう
[2] 検索式: プロ野球チームを つくろう
[3] 検索式: プロ野球チーム を つくろう
の三種類で検索すると、以下のようになります。
[1]
参考ヒット数: { [ プロ: 277 ] [ 野球: 206 ] [ チーム: 485 ] [ をつくろう: 0 ] :: 0 }
検索式にマッチする文書はありませんでした。
[2]
参考ヒット数: { [ プロ: 277 ] [ 野球: 206 ] [ チーム: 485 ] [ を (ヒット数が多すぎるので無視しました) ] :: 0 } [ つくろう: 78 ]
検索式にマッチする文書はありませんでした。
[3]
参考ヒット数: { [ プロ: 277 ] [ 野球: 206 ] [ チーム: 485 ] :: 50 } [ を (ヒット数が多すぎるので無視しました) ] [ つくろう: 78 ]
検索式にマッチする 34 個の文書が見つかりました。
[1] は、インデックス段階で KAKASI が「プロ 野球 チーム を つくろう」
と分けている一方、検索式段階で「をつくろう」という平仮名文字列を検
索しようとするから、0件になってます。
[2] は、「を」を無視しているのはいいけど、フレーズ検索しているため
に、0件になってます。これは namazu-devel-ja 00387 で高久さんが報告
されているのと同じ(あるいは似た)症状だとおもいます。
[3] は、まあ当然大丈夫ですな。
まあ、「フレーズ検索は100%ではない」と最初から断っているのだから、
そらまあしょうがないよな、という気が個人的にはするのですが、敢えて
[1] に対処するなら、検索式のパースで、KAKASI (あるいは ChaSen)と同
じように、「を」を特別扱いするようにしなければならないでしょう。
しかしまあ、そもそも、ひらがなが多かったら、KAKASI だろうがChaSen
だろうが、曖昧性の解消を機械的にやるのは極めて困難/不可能なのは最
初からわかっているのだから、「こういうものだ」と割りきるのが一番い
い気はします。
一方、[2] は、バグあるいは仕様のどちらとも言えなくもないので、要検
討課題でしょう。
--
馬場 肇 ( Hajime BABA ) E-mail: baba@xxxxxxxxxxxxxxxxxxxxxx
京都大学理学部宇宙物理学教室 博士後期課程
--