Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: cannot convert PDF to text on Namazu
寺西です。
takeshi@xxxxxxxxx wrote:
>
> 伊藤と申します.
# 時計おかしいですよ。
> Namazu 2.0.4 の mknmz + pdftotext(0.91 または 0.90)で PDF ファイルの
> インデックスを作ろうとしているのですが, Unable to convert pdf file
> (maybe copying protection) のエラーが出て作成出来ません. 過去ログを
> 参照し xpdf-0.90-fefe パッチをあてたのですが, 同様のエラーが発生します.
xpdf は 0.91 の方が良いでしょう。
> また手動で
> % pdftotext hogehoge.pdf hogehoge.txt
> を行うとテキストファイルの書き出しは行われます.
Namazu の内部では、
% pdftotext -q -eucjp hogehoge.pdf hogehoge.txt
と処理されていますので、手動でこの通り入力した時にどうなるかを
お確かめください。
なお、'Unable to convert pdf file (maybe copying protection)'
のメッセージは、Namazu(pdf.pl)が出しているもので、
pdftotext が正常終了しなかった際に出力されます。
もしかすると、きちんと生成されたと思っている hogehoge.txt
の中身が正しいものではないのかもしれません。
> エラー表示後, pdftotext のオプション一覧が表示されます. namazu の問題
> ではなく, pdftotext の問題の可能性も高いと思いますが, 理由・改善策な
> ございましたら, 御教授お願いします.
Namazu の時と手動で変るとは思わないのですが、pdftotext が
複数あって、Namazu から呼び出されている pdftotext と
手動で実行している pdftotext が別物ということはないでしょうか?
念のため別のpdftotext がないかどうかお確かめください。
> -f <int> : first page to convert
> -l <int> : last page to convert
> -ascii7 : convert to 7-bit ASCII (default is 8-bit ISO >Latin-1)
> -raw : keep strings in content stream order
> -q : don't print any messages or errors
> -h : print usage information
> -help : print usage information
0.90 は既に手元にないのですが、-eucjp オプションの説明が
ないところを見ると configure に --with-gzip --enable-opi
--enable-japanese などのオプションを付けていなかったのでは?
何を付けました?
--
寺西