Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: field search bug?



>> On Thu, 25 Dec 2003 21:55:50 +0900
>> yw3t-trns@xxxxxxxxxxxxxxx (Tadamasa Teranishi) said as follows:

>NKF 2.X により不完全な漢字コードを生成してしまっているのか、それとも
>元データに不完全な漢字コードが入っているのかはわかりませんので、でき
>ましたら

>wc: NMZ.field.subject:19636: 無効または不完全なマルチバイトまたはワイ
>ド文字です

>でワーニングがでている元メールをいただけると助かります。

とのご要望ですが,こちらは archive の公開されている mailing list に投
稿された記事でもありませんし,個人宛のメールも含まれていますから,本文
の公開は差し控えさせて頂きます.

代わりに,以下のコマンドで抽出した差し支えない範囲の表題の一覧を送りま
す.

  wc NMZ.field.subject 2>&1 | sed '$d' | cut -f3 -d: | sed 's/$/p/' \
  sed -n -f - NMZ.r | grep emacs/tm | xargs egrep -h "^Subject: "

<解説>
  (1) wc の出力から,
  (2) ワーニングを出力している行のみを残し(sed '$d'),
  (3) そのワーニングから行番号を取り出し(cut -f3 -d:),
  (4) 得られた行番号を sed のコマンド用に変形し(sed 's/$/p/'),
  (5) 指定された行を NMZ.r から取り出し,
  (6) 差し支えない範囲に制限し(grep emacs/tm),
  (7) それらのファイルから表題のみを取り出す(xargs ...)
</解説>

この結果を nkf-2.03 で MIME を処理させて見ようとすると,異様な結果が得
られますから,nkf のバグということになるのではないでしょうか.

-- 
土屋 雅稔 ( TSUCHIYA Masatoshi )

Attachment: subjects.txt.gz
Description: Binary data