Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdfインデックス作成について(RedHat7.3)



寺西です。

"Ichiro.Ohmuro" wrote:
> 
> htmlファイルは問題なく処理できますがpdfファイルのインデックス作成がうまく
> いきません。
> 
> redhat Linux 7.3 標準インストール時に既にインストール済み
> namazu 2.0.10-4

2.0.10-4 って何だろう? とりあえず 2.0.12 を使いましょう。

> nkf 1.92-6

基本的に nkf 1.9* 系はダメです。1.92-6 というのが、修正済みのバージョン
でしたらいいのですが...。
 
> xpdf 1.00-3

ランゲージパックはインストールされていますか?
なお、xpdf 2.02 以降をお勧めします。

> 初期インストールの状態で
> $mknmz -a  index とすると pdfファイルに関して
> pdftotext version 1.00
> Copyright 1996-2002 Derek B. Noonburg
> Usage: pdftotext [options] <PDF-file> [<text-file>]
>   <中略>
>   -?                : print usage information
> のようなメッセージが出力されました。

2.0.12 では対策済みです。

> 次に /usr/share/namazu/filter/pdf.pl を修正
> ------------------------------------------------------------------------
> ###     system("$pdfconvpath -q -eucjp -raw $tmpfile $tmpfile2");
>         system("$pdfconvpath -q -enc -EUC-JP -raw $tmpfile $tmpfile2");
> -------------------------------------------------------------------------

おそらく system("$pdfconvpath -q -enc EUC-JP -raw $tmpfile $tmpfile2");
の間違いではないかと思いますが。(-EUC-JP ではなくて)

> 結果
> Unable to convert pdf file (maybecopying protection) なる
> メッセージが出力され変換できません。

菅さんが既に指摘していますが、このメッセージを信じるならパスワード付きの 
PDF ファイルではないかと思いますが、いかがでしょう。
その PDF ファイルは acrobatreader でパスワード入力なしに開くことが
できるのでしょうか?
 
> 単独で pdftotext を実行してみますと
> 
> $ pdftotext -q -enc EUC-JP -raw  1.pdf 1.txt
> 何も出力されず終了します。1.txtファイルも作成されません

これで変換できないならあきらめるしかないです。
pdftotext が対応できていないのですから。xpdf のバージョンを上げて
みるというのも手ではありますが、パスワード付きの PDF ファイルでしたら
バージョンアップしても無意味です。

-q オプションを指定しなければ、何かメッセージはでませんか?

なお、パスワード付きの PDF ファイルでしたら

$ pdftotext -enc EUC-JP -raw -upw passwd 1.pdf 1.txt

で、変換できるはずです。(もちろん passwd は、PDF にかかっている
パスワードを指定します。)
 
> 因みに
> $ pdftotext -q -eucjp  1.pdf 1.txt では
> 以下のメッセージが出力されました。(mknmz -a index (pdf.pl変更前と同じです))

pdftotext のコマンドラインの引数が 1.00 以上で変更になり、互換性が
ありません。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E