namazu-ml(ring)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: File::MMagic trouble
- From: knok@xxxxxxxxxxxxx (NOKUBI Takatsugu)
- Date: Tue, 5 Oct 99 14:08:58 JST
<199910012002.FAA20582@xxxxxxxxxxxxxx>の記事において
sugiura@xxxxxxxxxxxxさんは書きました。
>> lessでコード判別をしくじるようなファイルというのは、具体的には
>> http://www.kantei.go.jp/jp/clinton/1e050.html などです。
>> <TITLE>...</TITLE>の中の最初の1文字目"小"という文字の判別を間違えます。
>> nkf1.71をモジュールとして組み込んでいますが、このnkf単体ならちゃんと判
>> 別するんで別の問題かもしれません。
手もとにあるソースは既に1.9.4ではないので、その上で起きる問題に付い
ては検証していませんが、何が問題になっているのかはわかりました。
File::MMagic::check_binaryではcontrol characterの割合でbinaryかどう
かをチェックしているのですが、
・control characterとして扱う範囲からLF, TAB, ESCを除外している
・今回問題にしているデータは行末がCR+LFでなおかつ空行が多い
という理由でLFをcontrolとみなしてしまい、その結果binaryデータとして
認識してしまっていました。
LFをcontrolから除外するように修正したFile::MMagicを
namazu-1-9-4-libralization branchにcommitしましたので、そちらで試して
みて頂けませんでしょうか。
# これだけで1.9.4での問題が解決するかどうかは確認していません。
--
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx (private)
nokubi@xxxxxxxxx (official)