Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [Q] mknmz -H オプションの動作について
- From: Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx>
- Date: Fri, 21 Mar 2003 03:44:59 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 02770
- References: <3E71C2A1.AB947580@asahi-net.or.jp> <3E761BC3.DD4407F3@asahi-net.or.jp>
寺西です。
Tadamasa Teranishi wrote:
>
> pl/wakati.pl を調べたところ、
>
> if ($var::Opt{'hiragana'}) {
> $tmp[$ndx] =~ s/ (\xa4[\xa1-\xf3])+ //g;
> }
>
> という箇所で平仮名のみの単語を削除しているようでした。
> しかし、これでは次のケースの平仮名のみの単語は削除できません。
>
> 連続して平仮名のみの単語が現れ、そのセパレータがスペース1つ
> の場合です。
> 例えば、" ここ ここ " という文字列を処理した場合、2つめの「ここ」
> が残ります。
正確には "ここ ここ ここ" の最後の「ここ」が残るバグでした。
これに気づくと、修正すべきコードがぐんと減って、かなりすっきり
しました。
> ただ、これだけではまだ完全ではありませんでした。スコア計算の
> ために埋め込まれたキーワード(\x7f数字\x7f文字列\x7f/数字\x7f)に
> も対応していませんでした。
こっちの修正と加えて、commit することにします。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E