Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdftotext が Distiller で書き出された PDF から日本語を取り出せない件



ども、佐藤です。

On Sat, 10 Feb 2001 23:34:28 +0900
s a k a k i <sakaki@xxxxxxxxxxxxx> wrote:

> 現在Solaris2.6上でPDFをnamazuで検索するシステムを構築中です。
(略)
> #どのMLで話すべきか迷いましたが、namazuの問題と言うよりPDFの問題で、他の
> #MLではスレッドがたっていないようでしたので、win32に投げさせていただきま
> #した。

Solarisなら namazu-users-ja だと思いますが(^^;


> SolarisおよびDOSのコマンドで直接pdftotextを実行させた場合、
> 下記のエラーをはき、出力されるテキストは英数だけになります。
> %pdftotext hogehoge.pdf hogehoge.txt
> Error:Unknown Type 0 charactor set: Adobe-Identify

PDFを直接テキストエディタで開いて"/Encoding" を探してみてください。
手元のPDF-1.2やPDF-1.3で作成されたものは"/WinAnsiEncoding" になって
います。

他のMLでAcrobatは文字コードの扱いがSJIS、UTF-8。という話を読んだ覚えが
あるので、pdftotext は "/WinAnsiEncoding"=SJISはOKで、?=UTF-8はNG 
かもしれません。
#手元のファイルからの推測なので外しているかもしれません(^^;

佐藤 充男
satou@xxxxxxxxxxxxxx