Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: インデックス化できない文字?



小舞です。

TNakatani さんは書きました:
>質問内容は、**xxで検索できないという意味ではなくて、**xxという名前の人を
>**では検索できず、xxなら検索でき、検索ファイルを表示してみると、**の部分が
>表示されていないという意味だったんです。文章でうまく説明できなくてすみませ
>ん。
>**という文字がキーワードとして認識されないことが不思議で質問させていただいた
>のです。漢字関係の何らかの設定ミスでmknmzで認識できない漢字があるのでは?
>という疑問があったんですが、それはありえないことでしょうか?

ちょっと具体的なイメージがつかめないので、よくわからないので、
はずしていたらごめんなさい。

例えば、鈴木一郎
という名前があって、

鈴木なら検索できず、一郎なら検索ができ、
検索ファイルを見ると、鈴木という名前がどこにもないという感じでしょうか?

前のMLで、石丸という名前で、
「石丸い・・」という文章で、石丸という漢字では検索できず、
分かち書きの関係で、石 +丸い
と分割されたため、検索にひっかからなかったとかいう記事があったように
記憶していますが、(調べても良く分からなかった。)

そういう形容詞の一部が漢字の名前になっている場合は、そういうことが
あるかもしれません。


>**では検索できず、xxなら検索でき、検索ファイルを表示してみると、**の部分が
>表示されていないという意味だったんです。文章でうまく説明できなくてすみませ
というあたりが、よく理解できない、、、(表示されていない、、、という所が)
ので、間違っているかもしれませんけど。

Namazuの動作の基本原理は、KAKASI(or chasen?)によって、日本語を分かち書き
(つまり単語にバラす)して、それを基本として、本の単語の索引のようなものを
作成しています。そういう基本原理から照らし合わせて、一番可能性として
在りえそうな、現象を把握しないといけないのかもしれません。
(具体的な状況が分からず、山勘なので、間違っているかもしれません。)