Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
PDF ファイルでコメント部分に変なコードが入る場合の対策は?
- From: yokoi <yokoi@xxxxxxxxx>
- Date: Thu, 10 Aug 2000 11:41:42 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 00759
横井です。
1日たってもML宛てにメールが届いていないようなので再送します。
2通になってしまったらごめんなさい。
SunOS 5.5 にて
namazu 2.0.4
pdftotext version 0.90
を使っています。
検索対象にPDFファイルがある場合、コメント部分に16進数でA1 A0 という
コードが入っている事があります。
例、
http://www.pdf.co.jp/lib/pdf/calender/2000h1.pdf
これらの変なコードを取り除くにはどうしたらよいでしょうか?
shell上からpdftotext pdfto2000h1.pdf とすると
pdfto2000h1.txt にA1 A0 というコードが入っているので
namazu よりもpdftotext の問題の気がしますが...。
namazu をshell上から実行して、A1 A0を削るフィルターを通せばいいのかな?
みなさんはどう対策していますか?
========================
横井
yokoi@xxxxxxxxx
========================