Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
全角文字のフレーズ検索のバグ
- From: Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx>
- Date: Fri, 21 Mar 2003 23:15:55 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 02779
寺西です。
フレーズ検索はほとんど使わないのですが、たまたまバグを見つけた
ので修正しました。(開発版)
全角文字のフレーズ検索を行うと正しく検索できません。
例えば http://www.namazu.org/ で {開発 環境} で検索すると、
References: { [ 開発: 51 ] [ : 0 ] [ : 0 ] [ 環境: 17 ] :: 0 }
のような結果になります。真ん中に単語と誤認されたコードがあり、
これが 0 件のためヒットしません。
内部ではフレーズ検索の場合、単語と単語の間は '\t' で区切られる
ように処理されています。
半角文字の場合はうまく処理されているのですが、全角文字の場合
わかち書きによって、'\t' が複数個で区切られてしまっているようです。
その結果 2つ目以降の '\t' を単語と誤認しているようです。
本来ですと、わかち書きの部分を修正するべきところですが、
nmz/search.c (do_phrase_search) の単語を取り出す部分を
修正することで対応しました。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E