namazu-ml(avocado)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: pnamazu-98.04.21
Rei FURUKAWA <furukawa@xxxxxxxxxxxxxxxx> wrote:
>どんな語に展開されたかを「参考『参考ヒット数』」のような形で表示する仕
>様にした方が、使う側から見れば便利かもしれないですね。
>(あんまりたくさんだと困りますが)
そうですね。どんな語に展開されたかはやはり気になるところだと思いま
す。
>「カタカナ中間一致」も、「カタカナ語はひとまとまりで登録される」という
>前堤に頼っていて、kakasi の辞書にある、「漢字 + カタカナ」の語は検索か
>ら漏れています。(12万語中 400 語くらいあります)
>
>ただ、実際に送り仮名も検索したくなる頻度は?というと、それほど高くない
>ような気がします。
私も漢字+カタカナ語とか送り仮名を含めて検索したいということはほと
んどないと思います。
>とすれば、今のカタカナ中間一致と同様の「ひらがな『だけ』の語の中間一致」
>を用意して、
> 「送り仮名も検索したい人は時間がかかるけど我慢してね。
> ひらがなだけの単語を検索したいときは '?ひらがな?' とすると速いよ」
>という仕様でも、「アリ」だと私は思います。
実際のところ、ひらがなで検索すること自体が少ないし、まして中間一致
で検索したいというケースはほとんどないでしょうね。
ちょっと気になったのはたとえば『*い*』みたいにして検索をかけると数
十秒かかってしまうのでそれを悪用すれば意図的にサーヴァに負荷をかけ
られるというのが心配ではあります。マッチするキーワードが多い場合に
制限をかけるようにしたほうが良いかもしれません。
> > % perl namazu.pl "*あいうえお"
> > のように実行したら
> > | 参考ヒット数: [ *あい: 4 ] [ う: 56 ]
> > のようにおかしな結果になりました。これは『あ』と『い』を通過して
> > 『う』の時点で該当するものがなくなって、意図しない動作になってしまっ
> > たものと思われます。今日はもう眠いのでまた明日調べます。
>
>これはバグのようですね。私の意図では
>
> 参考ヒット数: [ *あい: 4 ] [ う: 56 ] [ えお: xx ]
> 参考ヒット数: [ *あい: 4 ] [ う: 56 ] [ え: xx ] [ お: xx ]
>
>などと出て欲しいところです。すみませんが、正規版で「え」「お」「えお」
>がどのくらいヒットするか調べてみていただけますか?
| 参考ヒット数: [ え: 4 ]
| 参考ヒット数: [ お: 226 ]
| 参考ヒット数: [ えお: 0 ]
でした。私の希望としては『*あいうえお』の場合は分解されないで
| 参考ヒット数: [ *あいうえお: 0 ]
になってほしい気がします。あくまでも後方一致ということで。
>それと、'perl namazu.pl "*橋技術科学大学" ' とすると、どうなりますでし
>ょうか?
| % perl namazu.pl "*橋技術科学大学"
|
| 橋 / l: 139703 r: 139707 (4)
| 技 / l: 139405 r: 139420 (15)
| 術 / l: 143806 r: 143821 (15)
| 科 / l: 137893 r: 137899 (6)
| 学 / l: 138504 r: 138546 (42)
| 大 / l: 146863 r: 146974 (111)
| 学 / l: 138504 r: 138546 (42)
| [五橋: 2]
| [豊橋: 1]
| 検索結果
|
| 参考ヒット数: [ *橋: 3 ] [ 技術科学大学: 1 ]
| ...
です。ちなみに、
| % perl namazu.pl "豊橋技術科学大学"
| 検索結果
|
| 参考ヒット数: [ 豊橋: 1 ] [ 技術科学大学: 1 ]
| ...
|
| % echo "豊橋技術科学大学" |kakasi -w
| 豊橋 技術科学大学
です。
--
高林 哲 Satoru Takabayashi