Namazu-win32-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: pdftotext が Distiller で書き出された PDF から日本語を取り出せない件
ども、佐藤です。
On Sat, 10 Feb 2001 23:34:28 +0900
s a k a k i <sakaki@xxxxxxxxxxxxx> wrote:
> 現在Solaris2.6上でPDFをnamazuで検索するシステムを構築中です。
(略)
> #どのMLで話すべきか迷いましたが、namazuの問題と言うよりPDFの問題で、他の
> #MLではスレッドがたっていないようでしたので、win32に投げさせていただきま
> #した。
Solarisなら namazu-users-ja だと思いますが(^^;
> SolarisおよびDOSのコマンドで直接pdftotextを実行させた場合、
> 下記のエラーをはき、出力されるテキストは英数だけになります。
> %pdftotext hogehoge.pdf hogehoge.txt
> Error:Unknown Type 0 charactor set: Adobe-Identify
PDFを直接テキストエディタで開いて"/Encoding" を探してみてください。
手元のPDF-1.2やPDF-1.3で作成されたものは"/WinAnsiEncoding" になって
います。
他のMLでAcrobatは文字コードの扱いがSJIS、UTF-8。という話を読んだ覚えが
あるので、pdftotext は "/WinAnsiEncoding"=SJISはOKで、?=UTF-8はNG
かもしれません。
#手元のファイルからの推測なので外しているかもしれません(^^;
佐藤 充男
satou@xxxxxxxxxxxxxx