namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pnamazu-98.04.21



Rei FURUKAWA <furukawa@xxxxxxxxxxxxxxxx> wrote:

>どんな語に展開されたかを「参考『参考ヒット数』」のような形で表示する仕
>様にした方が、使う側から見れば便利かもしれないですね。
>(あんまりたくさんだと困りますが)

そうですね。どんな語に展開されたかはやはり気になるところだと思いま
す。


>「カタカナ中間一致」も、「カタカナ語はひとまとまりで登録される」という
>前堤に頼っていて、kakasi の辞書にある、「漢字 + カタカナ」の語は検索か
>ら漏れています。(12万語中 400 語くらいあります)
>
>ただ、実際に送り仮名も検索したくなる頻度は?というと、それほど高くない
>ような気がします。

私も漢字+カタカナ語とか送り仮名を含めて検索したいということはほと
んどないと思います。


>とすれば、今のカタカナ中間一致と同様の「ひらがな『だけ』の語の中間一致」
>を用意して、
>    「送り仮名も検索したい人は時間がかかるけど我慢してね。
>      ひらがなだけの単語を検索したいときは '?ひらがな?' とすると速いよ」
>という仕様でも、「アリ」だと私は思います。

実際のところ、ひらがなで検索すること自体が少ないし、まして中間一致
で検索したいというケースはほとんどないでしょうね。

ちょっと気になったのはたとえば『*い*』みたいにして検索をかけると数
十秒かかってしまうのでそれを悪用すれば意図的にサーヴァに負荷をかけ
られるというのが心配ではあります。マッチするキーワードが多い場合に
制限をかけるようにしたほうが良いかもしれません。


>  > % perl namazu.pl "*あいうえお"
>  > のように実行したら
>  > | 参考ヒット数:  [ *あい: 4 ]  [ う: 56 ] 
>  > のようにおかしな結果になりました。これは『あ』と『い』を通過して
>  > 『う』の時点で該当するものがなくなって、意図しない動作になってしまっ
>  > たものと思われます。今日はもう眠いのでまた明日調べます。
>
>これはバグのようですね。私の意図では
>
>        参考ヒット数:  [ *あい: 4 ]  [ う: 56 ]  [ えお: xx ]
>        参考ヒット数:  [ *あい: 4 ]  [ う: 56 ]  [ え: xx ]  [ お: xx ]
>
>などと出て欲しいところです。すみませんが、正規版で「え」「お」「えお」
>がどのくらいヒットするか調べてみていただけますか?

| 参考ヒット数:  [ え: 4 ]
| 参考ヒット数:  [ お: 226 ]
| 参考ヒット数:  [ えお: 0 ]

でした。私の希望としては『*あいうえお』の場合は分解されないで

| 参考ヒット数:  [ *あいうえお: 0 ]

になってほしい気がします。あくまでも後方一致ということで。


>それと、'perl namazu.pl "*橋技術科学大学" ' とすると、どうなりますでし
>ょうか?

| % perl namazu.pl "*橋技術科学大学" 
| 
| 橋 / l: 139703 r: 139707 (4)
| 技 / l: 139405 r: 139420 (15)
| 術 / l: 143806 r: 143821 (15)
| 科 / l: 137893 r: 137899 (6)
| 学 / l: 138504 r: 138546 (42)
| 大 / l: 146863 r: 146974 (111)
| 学 / l: 138504 r: 138546 (42)
| [五橋: 2]
| [豊橋: 1]
| 検索結果
| 
| 参考ヒット数:  [ *橋: 3 ]  [ 技術科学大学: 1 ]
| ...

です。ちなみに、

| % perl namazu.pl "豊橋技術科学大学" 
| 検索結果
| 
| 参考ヒット数:  [ 豊橋: 1 ]  [ 技術科学大学: 1 ]
| ...
|
| % echo "豊橋技術科学大学" |kakasi -w
| 豊橋 技術科学大学

です。

--
高林 哲 Satoru Takabayashi