Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

filter/pdf.pl



filter/pdf.pl から呼ぶ pdftotext に -raw オプションをつけておきた
いとおもいます。二段組みされたPDFをうまくparseするためです。

たとえば、

AAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAA

BBBBBBBB  CCCCCCCC
BBBBBBBB  CCCCCCCC
BBBBBBBB  CCCCCCCC
BBBBBBBB  CCCCCCCC
BBBBBBBB  CCCCCCCC


というようなPDFファイルに対して(論文PDFだとよくあるケース)、
pdftotext が吐き出すテキストは、-raw オプションなしだと、

AAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAA

BBBBBBBB  CCCCCCCC
BBBBBBBBCCCCCCCC
BBBBBBBB  CCCCCCCC
BBBBBBBBCCCCCCCC
BBBBBBBBCCCCCCCC

のようになり、インデクシングには不都合です(しかもときどきスペース
が狂います)。しかし -raw オプションがあれば、

AAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAA

BBBBBBBB
BBBBBBBB
BBBBBBBB
BBBBBBBB
BBBBBBBB

CCCCCCCC
CCCCCCCC
CCCCCCCC
CCCCCCCC
CCCCCCCC

のようになってくれるので、インデクシング目的という意味では好都合で
す。逆に、つけて不都合なことはないとおもうんですが、もしあるような
らお知らせ下さい。ないようなら適当なタイミングでcommitしときます。
--
馬場  肇 ( Hajime BABA )                  E-mail: hajime.baba@xxxxxxxxx
国立天文台 天文学データ解析計算センター
--