Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [Q] mknmz -H オプションの動作について



寺西です。

Tadamasa Teranishi wrote:
> 
> pl/wakati.pl を調べたところ、
> 
>   if ($var::Opt{'hiragana'}) {
>     $tmp[$ndx] =~ s/ (\xa4[\xa1-\xf3])+ //g;
>   }
> 
> という箇所で平仮名のみの単語を削除しているようでした。
> しかし、これでは次のケースの平仮名のみの単語は削除できません。
> 
> 連続して平仮名のみの単語が現れ、そのセパレータがスペース1つ
> の場合です。
> 例えば、" ここ ここ " という文字列を処理した場合、2つめの「ここ」
> が残ります。

正確には "ここ ここ ここ" の最後の「ここ」が残るバグでした。
これに気づくと、修正すべきコードがぐんと減って、かなりすっきり
しました。
 
> ただ、これだけではまだ完全ではありませんでした。スコア計算の
> ために埋め込まれたキーワード(\x7f数字\x7f文字列\x7f/数字\x7f)に
> も対応していませんでした。

こっちの修正と加えて、commit することにします。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E