Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
filter/pdf.pl
- From: Hajime BABA <hajime.baba@xxxxxxxxx>
- Date: Wed, 17 Oct 2001 17:52:30 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 02092
filter/pdf.pl から呼ぶ pdftotext に -raw オプションをつけておきた
いとおもいます。二段組みされたPDFをうまくparseするためです。
たとえば、
AAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAA
BBBBBBBB CCCCCCCC
BBBBBBBB CCCCCCCC
BBBBBBBB CCCCCCCC
BBBBBBBB CCCCCCCC
BBBBBBBB CCCCCCCC
というようなPDFファイルに対して(論文PDFだとよくあるケース)、
pdftotext が吐き出すテキストは、-raw オプションなしだと、
AAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAA
BBBBBBBB CCCCCCCC
BBBBBBBBCCCCCCCC
BBBBBBBB CCCCCCCC
BBBBBBBBCCCCCCCC
BBBBBBBBCCCCCCCC
のようになり、インデクシングには不都合です(しかもときどきスペース
が狂います)。しかし -raw オプションがあれば、
AAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAA
BBBBBBBB
BBBBBBBB
BBBBBBBB
BBBBBBBB
BBBBBBBB
CCCCCCCC
CCCCCCCC
CCCCCCCC
CCCCCCCC
CCCCCCCC
のようになってくれるので、インデクシング目的という意味では好都合で
す。逆に、つけて不都合なことはないとおもうんですが、もしあるような
らお知らせ下さい。ないようなら適当なタイミングでcommitしときます。
--
馬場 肇 ( Hajime BABA ) E-mail: hajime.baba@xxxxxxxxx
国立天文台 天文学データ解析計算センター
--