namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: ps/pdf to text



Ken-ichi Hirose <hirose@xxxxxxxxxxxxxxxxxxxx> wrote:

>久しぶりに fj.unix を見ていたらこんなんがあるそうです。
><URL:http://www.research.digital.com/SRC/virtualpaper/pstotext.html>

ちょっと試してみたところ日本語は PostScript, PDFともにだめみたいで
す (英語の文書は OKでした)。

| Aladdin Ghostscript: Unrecoverable error, exit code

なんてエラーが出てしまいました。ちなみに、 gsのヴァージョンは

| Aladdin Ghostscript 5.10 (1997-11-23)

です。

上記のウェブペイジによると

>pstotext works by sending a library, followed by the PostScript
>file, to the Ghostscript interpreter. The library intercepts the
>text rendering operators and sends information about the text back
>to pstotext. This information includes character metrics and
>encoding vectors, so in most situations we're able to reconstruct
>the plain text (converted to ISO Latin 1 encoding), with correct
                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
>word breaks and good guesses about line breaks. It even works for
>rotated text!

だそうなので、きっと日本語は扱えないのでしょう。

# 日本語の PostScript, PDF のエンコーディングってどうなっているの?

-- Satoru Takabayashi