Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: multipart内のファイルのインデックス化
臼田です。
(上田誉司) wrote:
> InternetExplorer内部でhtml部分のエンコード方式はquoted-printableとbase64
> を自動的に切り替えられています。
> 例えば,
> http://www.namazu.org/ はbase64
> http://www.google.co.jp/ はquoted-printable
> で保存されました。
情報ありがとうございます。
テスト用にmultipart部が多くなるものばかり試していたので気が
つかなかったのかもしれません。
前提として考えているところを整理します。
E-mailの場合
Quoted-Printable encodingはhtmlの添付に使われており、
html付のE-mailは本文にも同じ文章が入っていることがある。
本文のないhtmlのみのE-mailはほとんどがSPAMかVirusである。
添付ファイルは多くはbase64 でencodingされている。
InternetExplorerが生成するmhtmlの場合
E-mailの本文に該当するようなものはない。
htmlやcss部分はQuoted-Printable もしくはbase64でエンコード
される(エンコードの使い分け方はIE次第??)
画像部分等はbase64 encodingされている。
と想定し下記のように変更しようと思います。
・標準ではQuoated-Printableもbase64も捨てる。(これまでの動作と同じ)
・--decode-multipartオプションでQuated-Printableとbase64の両方を
デコードする。
mhtmlのインデックスを作る際やE-mailの添付ファイルを扱う場合は後者を
選ぶということでわかりやすくなりました。
臼田幸生