Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
pdfインデックス作成について(RedHat7.3)
- From: "Ichiro.Ohmuro" <gly46141@xxxxxxxxxxxxxxx>
- Date: 30 Jul 2003 16:48:52 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 03436
はじめまして。
大室と申します。
htmlファイルは問題なく処理できますがpdfファイルのインデックス作成がうまく
いきません。
redhat Linux 7.3 標準インストール時に既にインストール済み
namazu 2.0.10-4
nkf 1.92-6
kakasi 2.3.1-3
xpdf 1.00-3
perl 5.6.1
初期インストールの状態で
$mknmz -a index とすると pdfファイルに関して
pdftotext version 1.00
Copyright 1996-2002 Derek B. Noonburg
Usage: pdftotext [options] <PDF-file> [<text-file>]
<中略>
-? : print usage information
のようなメッセージが出力されました。
次に /usr/share/namazu/filter/pdf.pl を修正
------------------------------------------------------------------------
### system("$pdfconvpath -q -eucjp -raw $tmpfile $tmpfile2");
system("$pdfconvpath -q -enc -EUC-JP -raw $tmpfile $tmpfile2");
-------------------------------------------------------------------------
その後
$ mknmz -a index
結果
Unable to convert pdf file (maybecopying protection) なる
メッセージが出力され変換できません。
単独で pdftotext を実行してみますと
$ pdftotext -q -enc EUC-JP -raw 1.pdf 1.txt
何も出力されず終了します。1.txtファイルも作成されません
因みに
$ pdftotext -q -eucjp 1.pdf 1.txt では
以下のメッセージが出力されました。(mknmz -a index (pdf.pl変更前と同じです))
pdftotext version 1.00
Copyright 1996-2002 Derek B. Noonburg
Usage: pdftotext [options] <PDF-file> [<text-file>]
<中略>
-? : print usage information
--------------------------------------------------
オプション無し
$ pdftotext 1.pdf 1.txt では
Error: Couldn't find cidToUnicode file for the 'Adobe-Japan1' collection
Error: Unknown character collection 'Adobe-Japan1'
Error: Unknown font tag 'TT2'
Error (1926): No font in show
<中略>
Error (14013): No font in show
Error: No font in show
1.txtは生成されますが 中身は空です。
あと少しの事だと思ったりしています が解決法方が分かりません。
どなたかご指導願います。
設定情報は 以下のとおり
(対応メディアタイプは/etc/namazu/mknmzrcの
$ALLOW_FILE以下のコメントを外しました。)
# mknmz -C
読み込んだ設定ファイル: /etc/namazu/mknmzrc
システム: linux
Namazu: 2.0.10
Perl: 5.006001
NKF: module_nkf
KAKASI: module_kakasi -ieuc -oeuc -w
茶筌: no
わかち書き: module_kakasi -ieuc -oeuc -w
メッセージの言語: ja_JP.eucJP
言語: ja_JP.eucJP
文字コード: euc
CONFDIR: /etc/namazu
LIBDIR: /usr/share/namazu/pl
FILTERDIR: /usr/share/namazu/filter
TEMPLATEDIR: /usr/share/namazu/template
対応メディアタイプ:
application/pdf
application/x-bzip2
application/x-compress
application/x-gzip
application/x-rpm
message/news
message/rfc822
text/hnf
text/html
text/html; x-type=mhonarc
text/plain
text/plain; x-type=rfc
text/x-hdml
text/x-roff
-------------------------
--------------------------------------------------
Ichiro.Ohmuro
gly46141@xxxxxxxxxxxxxxx