Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: cannot convert PDF to text on Namazu



寺西です。

takeshi@xxxxxxxxx wrote:
> 
> 伊藤と申します.

# 時計おかしいですよ。

> Namazu 2.0.4 の mknmz + pdftotext(0.91 または 0.90)で PDF ファイルの
> インデックスを作ろうとしているのですが, Unable to convert pdf file
> (maybe copying protection) のエラーが出て作成出来ません. 過去ログを
> 参照し xpdf-0.90-fefe パッチをあてたのですが, 同様のエラーが発生します.

xpdf は 0.91 の方が良いでしょう。

> また手動で
> % pdftotext hogehoge.pdf hogehoge.txt
> を行うとテキストファイルの書き出しは行われます.

Namazu の内部では、
% pdftotext -q -eucjp hogehoge.pdf hogehoge.txt
と処理されていますので、手動でこの通り入力した時にどうなるかを
お確かめください。

なお、'Unable to convert pdf file (maybe copying protection)'
のメッセージは、Namazu(pdf.pl)が出しているもので、
pdftotext が正常終了しなかった際に出力されます。

もしかすると、きちんと生成されたと思っている hogehoge.txt
の中身が正しいものではないのかもしれません。
 
> エラー表示後, pdftotext のオプション一覧が表示されます. namazu の問題
> ではなく, pdftotext の問題の可能性も高いと思いますが, 理由・改善策な
> ございましたら, 御教授お願いします.

Namazu の時と手動で変るとは思わないのですが、pdftotext が
複数あって、Namazu から呼び出されている pdftotext と
手動で実行している pdftotext が別物ということはないでしょうか?
念のため別のpdftotext がないかどうかお確かめください。

>  -f <int>        : first page to convert
>  -l <int>        : last page to convert
>  -ascii7         : convert to 7-bit ASCII (default is 8-bit ISO >Latin-1)
>  -raw            : keep strings in content stream order
>  -q              : don't print any messages or errors
>  -h              : print usage information
>  -help           : print usage information

0.90 は既に手元にないのですが、-eucjp オプションの説明が
ないところを見ると configure に --with-gzip --enable-opi 
--enable-japanese などのオプションを付けていなかったのでは?
何を付けました?
--
寺西