Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: pdfインデックス作成について(RedHat7.3)
寺西です。
"Ichiro.Ohmuro" wrote:
>
> htmlファイルは問題なく処理できますがpdfファイルのインデックス作成がうまく
> いきません。
>
> redhat Linux 7.3 標準インストール時に既にインストール済み
> namazu 2.0.10-4
2.0.10-4 って何だろう? とりあえず 2.0.12 を使いましょう。
> nkf 1.92-6
基本的に nkf 1.9* 系はダメです。1.92-6 というのが、修正済みのバージョン
でしたらいいのですが...。
> xpdf 1.00-3
ランゲージパックはインストールされていますか?
なお、xpdf 2.02 以降をお勧めします。
> 初期インストールの状態で
> $mknmz -a index とすると pdfファイルに関して
> pdftotext version 1.00
> Copyright 1996-2002 Derek B. Noonburg
> Usage: pdftotext [options] <PDF-file> [<text-file>]
> <中略>
> -? : print usage information
> のようなメッセージが出力されました。
2.0.12 では対策済みです。
> 次に /usr/share/namazu/filter/pdf.pl を修正
> ------------------------------------------------------------------------
> ### system("$pdfconvpath -q -eucjp -raw $tmpfile $tmpfile2");
> system("$pdfconvpath -q -enc -EUC-JP -raw $tmpfile $tmpfile2");
> -------------------------------------------------------------------------
おそらく system("$pdfconvpath -q -enc EUC-JP -raw $tmpfile $tmpfile2");
の間違いではないかと思いますが。(-EUC-JP ではなくて)
> 結果
> Unable to convert pdf file (maybecopying protection) なる
> メッセージが出力され変換できません。
菅さんが既に指摘していますが、このメッセージを信じるならパスワード付きの
PDF ファイルではないかと思いますが、いかがでしょう。
その PDF ファイルは acrobatreader でパスワード入力なしに開くことが
できるのでしょうか?
> 単独で pdftotext を実行してみますと
>
> $ pdftotext -q -enc EUC-JP -raw 1.pdf 1.txt
> 何も出力されず終了します。1.txtファイルも作成されません
これで変換できないならあきらめるしかないです。
pdftotext が対応できていないのですから。xpdf のバージョンを上げて
みるというのも手ではありますが、パスワード付きの PDF ファイルでしたら
バージョンアップしても無意味です。
-q オプションを指定しなければ、何かメッセージはでませんか?
なお、パスワード付きの PDF ファイルでしたら
$ pdftotext -enc EUC-JP -raw -upw passwd 1.pdf 1.txt
で、変換できるはずです。(もちろん passwd は、PDF にかかっている
パスワードを指定します。)
> 因みに
> $ pdftotext -q -eucjp 1.pdf 1.txt では
> 以下のメッセージが出力されました。(mknmz -a index (pdf.pl変更前と同じです))
pdftotext のコマンドラインの引数が 1.00 以上で変更になり、互換性が
ありません。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E