namazu-ml(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 検索できない文字



TAKAHASHI Masayoshi <maki@xxxxxxxxxxxxx> wrote:

>> これだけではよくわかりませんね.
>
>うーん、すみません。さらに調べてみました。
>
>ええと、もう少し具体的に説明しますと。ミステリ関連ページの検索を
>行おうとしているのですが、例えば「泡坂」という単語(人名です)での
>検索に失敗してしまいます。

泡坂妻夫さんですね。氏の「しあわせの書 - 名探偵ヨギガンジー
の心霊術」は自分だけが持っていたい作品です。:-)

# すごい作品なんだけど、大ヒットしてしまうと価値がなくなる ;-)


>「泡坂」で検索をしようとすると、namazu.cgiでは「泡」と「坂」に
>分離するようなのですが、「坂」では多数ひっかかるものの、「泡」
>では0件になってしまう。なので全体も0件になります。

手元で「泡坂妻夫」を含むテキストを作成して mknmz でインデッ
クスを作成 &&  namazu で「泡坂」を検索してみたところ、問題な
く検索できました。

手元の mknmz ではわかち書きに KAKASI を使っています。KAKASI 
は「泡坂妻男」を「泡坂」「妻男」と 2つにきちんと分割してくれ
ます。(標準の kakasidict に「泡坂」「妻男」が載っているから)


>単語の検索時と、インデックス作成時で単語分割が違ったりとか
>するんでしょうか?

インデックス作成時には KAKASI または ChaSen を用い、検索時に
は自前でわかち書きをしています。よって、単語の分割が異なるこ
とがあります。

ただ、インデックスに「泡坂」が載っているなら、検索時に「泡」
「坂」と間違って分割してしまうことはないはずです。 NMZ.w ファ
イルに「泡坂」が載っているか確認してもらえます? 

あるいは、ftp または http 経由でアクセスできるところに、イン
デックス (NMZ.* ファイルすべて) と検索対象とした文書を置いて
もらえれば、私の方で調査できます。

ところで、念のため確認しますが、検索対象とする文書には「泡坂」
が含まれるのですよね?

-- Satoru Takabayashi