Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: phrase search
- From: knok@xxxxxxxxxxxxx (NOKUBI Takatsugu)
- Date: Wed, 30 Aug 2000 17:28:42 JST
- X-ml-name: namazu-devel-ja
- X-mail-count: 00758
<20000830165948Z.satoru-t@xxxxxxxxxxxxxxxxxx>の記事において
satoru-t@xxxxxxxxxxxxxxxxxxさんは書きました。
>> > しかし、phrase search 的に使う分には困らないですけど、いろいろ応用し
>> >ようとした時には encoding が壁になりそうですね... 論理的な文字数を位置
>> >に返す、という感じでいいのかな?
>>
>> たしかに。エンコーディングの問題は考えていませんでした。文書
>> のエンコーディングを記録しておく必要がありますね。
なるほど、そういうアプローチでゆかれますか。
FreeWAIS の場合は内部を EUC-JP で統一していたので、位置情報も変換後
の encoding での byte 数になってました。
>> byte数でいいんじゃないでしょうか。EUC-JP, Shift_JIS, UTF-8
>> は OK ですよね。ISO-2022-JPは行頭まで戻らないと状態がわから
>> ないのが難点です。
御意。しかし、byte 数となると結構大変そうですね。無駄な SI/SO もあっ
たらきちんとカウントしないといけないし...
--
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx (private)
nokubi@xxxxxxxxx (official)