namazu-ml(avocado)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: ps/pdf to text
Ken-ichi Hirose <hirose@xxxxxxxxxxxxxxxxxxxx> wrote:
>久しぶりに fj.unix を見ていたらこんなんがあるそうです。
><URL:http://www.research.digital.com/SRC/virtualpaper/pstotext.html>
ちょっと試してみたところ日本語は PostScript, PDFともにだめみたいで
す (英語の文書は OKでした)。
| Aladdin Ghostscript: Unrecoverable error, exit code
なんてエラーが出てしまいました。ちなみに、 gsのヴァージョンは
| Aladdin Ghostscript 5.10 (1997-11-23)
です。
上記のウェブペイジによると
>pstotext works by sending a library, followed by the PostScript
>file, to the Ghostscript interpreter. The library intercepts the
>text rendering operators and sends information about the text back
>to pstotext. This information includes character metrics and
>encoding vectors, so in most situations we're able to reconstruct
>the plain text (converted to ISO Latin 1 encoding), with correct
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
>word breaks and good guesses about line breaks. It even works for
>rotated text!
だそうなので、きっと日本語は扱えないのでしょう。
# 日本語の PostScript, PDF のエンコーディングってどうなっているの?
-- Satoru Takabayashi