namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pnamazu-98.04.21



Rei FURUKAWA <furukawa@xxxxxxxxxxxxxxxx> wrote:

>調べていただき、ありがとうございます。もう少しデバッグにおつきあい下さ
>い。wsearch.pl の sub wsearch の中で binsearch を呼んでいる前後に
>
>  sub wsearch{
>      local($word) = @_;
>      local(%score);
>      my($hashp, $match, $name, $hit, @word);
>  
>      while ($word ne ''){
>          %score = ();
>+         print "<$word>\n";
>          ($match, $word, $hit) = &binsearch($word, *score);
>+         print "<$match, $word, $hit>\n";
>
>と入れて、どうなるか見てもらえますでしょうか?

試してみました。

| % perl namazu.pl "*あいうえお"
| <*あいうえお>
| あ / l: 3583 r: 5535 (1952)
| い / l: 5540 r: 11740 (6200)
| う / l: 11741 r: 14948 (3207)
| え / l: 14950 r: 15256 (306)
| お / l: 15256 r: 15989 (733)
| [このばあい: 1]
| [のばあい: 1]
| [あい: 2]
| <*あい, うえお, 4>
| <うえお>
| <う, , 56>
| 検索結果
| 
| 参考ヒット数:  [ *あい: 4 ]  [ う: 56 ]
| 
| 検索式にマッチする 2 個の項目が見つかりました。
| ...

となりました。また、

| % perl namazu.pl "*橋技術科学大学"
| <*橋技術科学大学>
| 橋 / l: 139703 r: 139707 (4)
| 技 / l: 139405 r: 139420 (15)
| 術 / l: 143806 r: 143821 (15)
| 科 / l: 137893 r: 137899 (6)
| 学 / l: 138504 r: 138546 (42)
| 大 / l: 146863 r: 146974 (111)
| 学 / l: 138504 r: 138546 (42)
| [五橋: 2]
| [豊橋: 1]
| <*橋, 技術科学大学, 3>
| <技術科学大学>
| <技術科学大学, , 1>
| 検索結果
| 
| 参考ヒット数:  [ *橋: 3 ]  [ 技術科学大学: 1 ]
| 
| 検索式にマッチする 1 個の項目が見つかりました。
| ...

です。

>> でした。私の希望としては『*あいうえお』の場合は分解されないで
>> | 参考ヒット数:  [ *あいうえお: 0 ]
>> になってほしい気がします。あくまでも後方一致ということで。
>
>という考えかたもありますが、私としては、"*橋技術科学大学" では分割され
>て欲しい、と思うのです。うーむ。

うーん、なるほど。単語が『豊橋』『技術科学大学』のように二つに分か
れるとそういう問題になるんですね。それならやはり分割した方が良いよ
うな気がします。完全な後方一致ではなくなりますが、フレーズ検索がで
きないのだから仕方がありませんね。

[namazu:00529] で私がぼそぼそ言っていた

| # 単語とは別に記号類 ( ,.;:、。など) をデリミタとして区切った文の
| # 断片をインデクシングしておいてそれに部分マッチで検索すればフレー
| # ズ検索できるかな? (効率悪そうだが)

というのは不可能ではないけどディスクの容量をかなり使うと思われます。
どんなものか今度試しに実験してみます。

ところで、

<URL:http://avocado.aichi-u.ac.jp/%7Ealias/namazu/>

で過去のメールが読めるようにしました。以前にも同じようなのがあった
けど新たに作り直しました。

--
高林 哲 Satoru Takabayashi