Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: attachment names in mailnews.pl
寺西です。
藤原 誠 / Makoto Fujiwara wrote:
>
> > 千葉市中央区長洲
> > 藤原 誠
> 寺西さん、反応ありがとうございます。
>
> 寺> # name の切り出し方にも問題ないかい?
> 寺> フィールドの filename を使うべき(なのだが、content-type フィールドの
ここは、もうちょっときちんと name なり filename なりを切り出す
ように記述すべきでしょうという意味です。
そして、切り出すのなら filename を優先した方が気分的にすっきり
します。
# このパッチでは name でも filename でもマッチするだろうけど、大雑把
# (それ以外もマッチする)すぎるように思えるので。
> 寺> かもしれませんが、日本語の場合は生データ(漢字コードがばらばら)だった
> 寺> り、エンコードされていたりしたかと思いますので、様々なメーラから
> 寺> どのようなデータで確認されました?
>
> 実はそこまでは考えていなかったのですが、
>
> ------------
> > ls |wc
> 411 411 1540
> > grep -i name * | grep Content | ack -c
> code kanji kana kanji7 kana7 err ascii ctrl other
> jis 0 0 196 0 0 9717 216 0
> ------------
grep した結果なので、ゴミも含まれているかもしれませんが、
ctrl の 216 個のデータは、大丈夫そうでしょうか?
# ゴミ(tab かな?)ならいいのですが、kanji7 より数が多いので...。
> (例えば) ... 62 は譜名です。
> 62:Content-Type: application/octet-stream; name="ヒアリングシート.xls";
> 62:Content-Disposition: attachment; filename="ヒアリングシート.xls)
本筋から離れますが、メーラの問題でしょうけど、
エクセルなら Content-Type: application/msexcel; にして欲しいなと
思いますね。
> なところで、
> > namazu -l ヒアリングシート /hoge/namazu-temp-test/
> foo/bar/62
> のような結果が(期待通り)出ています。
>
> 元の名前には、生jis が入っているのだけれど、nkf で euc になって
> いるのでは、という気がします。
pre_codeconv で euc に変換できているということのようですね。
# そうすると漢字コードの問題はとりあえず大丈夫なのかな。
> (これって、いくつも添付書類があった場合、一つ目しか見ないですね多分)
いや、パートごとに処理しているから大丈夫そうに見えます。
ただ、ファイル名が連結されてしまうかもしれないので、空白は入れないと
いけないかもしれません。
> そういうことで、無条件に name の内容をいれるのではなくて、必要なもの
> (Content-Type でチェック?)だけを入れるのが良いかと思います。
もっとも種類が多いので、Content-Type で切り分けるのも大変かも
しれませんね。しかし何らかの制限を加えないことには...。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E