Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: phrase search
knok@xxxxxxxxxxxxx (NOKUBI Takatsugu) wrote:
>> たしかに。エンコーディングの問題は考えていませんでした。文書
>> のエンコーディングを記録しておく必要がありますね。
>
> なるほど、そういうアプローチでゆかれますか。
>
> FreeWAIS の場合は内部を EUC-JP で統一していたので、位置情報も変換後
>の encoding での byte 数になってました。
元のテキストのエンコーディングがすべて同じだったら楽なんです
けどね。
>> byte数でいいんじゃないでしょうか。EUC-JP, Shift_JIS, UTF-8
>> は OK ですよね。ISO-2022-JPは行頭まで戻らないと状態がわから
>> ないのが難点です。
>
> 御意。しかし、byte 数となると結構大変そうですね。無駄な SI/SO もあっ
>たらきちんとカウントしないといけないし...
たしかに。内部コード (UTF-8?) に変換すると、元のファイルでの
文字の位置と対応が取れなくなりそうです。さらに、わかち書きの
際にずれてしまう危険があります。何かいい方法は思いつきません?
-- Satoru Takabayashi