Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: phrase search



<20000830165948Z.satoru-t@xxxxxxxxxxxxxxxxxx>の記事において
satoru-t@xxxxxxxxxxxxxxxxxxさんは書きました。

>> >  しかし、phrase search 的に使う分には困らないですけど、いろいろ応用し
>> >ようとした時には encoding が壁になりそうですね... 論理的な文字数を位置
>> >に返す、という感じでいいのかな?
>> 
>> たしかに。エンコーディングの問題は考えていませんでした。文書
>> のエンコーディングを記録しておく必要がありますね。

  なるほど、そういうアプローチでゆかれますか。

  FreeWAIS の場合は内部を EUC-JP で統一していたので、位置情報も変換後
の encoding での byte 数になってました。

>> byte数でいいんじゃないでしょうか。EUC-JP, Shift_JIS, UTF-8 
>> は OK ですよね。ISO-2022-JPは行頭まで戻らないと状態がわから
>> ないのが難点です。

  御意。しかし、byte 数となると結構大変そうですね。無駄な SI/SO もあっ
たらきちんとカウントしないといけないし...
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx (private)
        nokubi@xxxxxxxxx (official)