namazu-ml(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: File::MMagic trouble



<199910012002.FAA20582@xxxxxxxxxxxxxx>の記事において
sugiura@xxxxxxxxxxxxさんは書きました。

>> lessでコード判別をしくじるようなファイルというのは、具体的には
>> http://www.kantei.go.jp/jp/clinton/1e050.html などです。
>> <TITLE>...</TITLE>の中の最初の1文字目"小"という文字の判別を間違えます。
>> nkf1.71をモジュールとして組み込んでいますが、このnkf単体ならちゃんと判
>> 別するんで別の問題かもしれません。

  手もとにあるソースは既に1.9.4ではないので、その上で起きる問題に付い
ては検証していませんが、何が問題になっているのかはわかりました。
  File::MMagic::check_binaryではcontrol characterの割合でbinaryかどう
かをチェックしているのですが、

・control characterとして扱う範囲からLF, TAB, ESCを除外している
・今回問題にしているデータは行末がCR+LFでなおかつ空行が多い

  という理由でLFをcontrolとみなしてしまい、その結果binaryデータとして
認識してしまっていました。

  LFをcontrolから除外するように修正したFile::MMagicを
namazu-1-9-4-libralization branchにcommitしましたので、そちらで試して
みて頂けませんでしょうか。

# これだけで1.9.4での問題が解決するかどうかは確認していません。
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx (private)
        nokubi@xxxxxxxxx (official)