Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: phrase search



knok@xxxxxxxxxxxxx (NOKUBI Takatsugu) wrote:

>> たしかに。エンコーディングの問題は考えていませんでした。文書
>> のエンコーディングを記録しておく必要がありますね。
>
>  なるほど、そういうアプローチでゆかれますか。
>
>  FreeWAIS の場合は内部を EUC-JP で統一していたので、位置情報も変換後
>の encoding での byte 数になってました。

元のテキストのエンコーディングがすべて同じだったら楽なんです
けどね。


>> byte数でいいんじゃないでしょうか。EUC-JP, Shift_JIS, UTF-8 
>> は OK ですよね。ISO-2022-JPは行頭まで戻らないと状態がわから
>> ないのが難点です。
>
>  御意。しかし、byte 数となると結構大変そうですね。無駄な SI/SO もあっ
>たらきちんとカウントしないといけないし...

たしかに。内部コード (UTF-8?) に変換すると、元のファイルでの
文字の位置と対応が取れなくなりそうです。さらに、わかち書きの
際にずれてしまう危険があります。何かいい方法は思いつきません?

-- Satoru Takabayashi