Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: multipart内のファイルのインデックス化



臼田です。

(上田誉司) wrote:

> InternetExplorer内部でhtml部分のエンコード方式はquoted-printableとbase64
> を自動的に切り替えられています。
> 例えば,
> http://www.namazu.org/  はbase64
> http://www.google.co.jp/ はquoted-printable
> で保存されました。

情報ありがとうございます。

テスト用にmultipart部が多くなるものばかり試していたので気が
つかなかったのかもしれません。


前提として考えているところを整理します。

E-mailの場合
 Quoted-Printable encodingはhtmlの添付に使われており、
 html付のE-mailは本文にも同じ文章が入っていることがある。
 本文のないhtmlのみのE-mailはほとんどがSPAMかVirusである。
 添付ファイルは多くはbase64 でencodingされている。

InternetExplorerが生成するmhtmlの場合
 E-mailの本文に該当するようなものはない。
 htmlやcss部分はQuoted-Printable もしくはbase64でエンコード
 される(エンコードの使い分け方はIE次第??)
 画像部分等はbase64 encodingされている。

と想定し下記のように変更しようと思います。

・標準ではQuoated-Printableもbase64も捨てる。(これまでの動作と同じ)
・--decode-multipartオプションでQuated-Printableとbase64の両方を
 デコードする。

mhtmlのインデックスを作る際やE-mailの添付ファイルを扱う場合は後者を
選ぶということでわかりやすくなりました。

臼田幸生