Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
about pdf file
- From: 松永 均 <nmz@xxxxxxxxxxxx>
- Date: Tue, 02 Jul 2002 11:47:14 +0900 (JST)
- X-ml-name: namazu-users-ja
- X-mail-count: 02677
松永と申します。
debian/woody のパッケージで namazu を使わせていただいています。
日本語の pdf のインデックス付けについてですが、最初
mknmz hoge.pdf としてもうまくインデックスが出来ませんでした。
調べたところ pdf.pl の中に
system("$pdfconvpath -q -eucjp -raw $tmpfile $tmpfile2");
という記述がありましたが、手で
pdftotext -q -eucjp -raw hoge.pdf hoge.txt
とするとエラーになってしまいます。しかし
pdftotext -q -enc EUC-JP -raw hoge.pdf hoge.txt
とすれば、hoge.txt は一応読めます。
そこで pdf.pl の当該部分を
system("$pdfconvpath -q -enc EUC-JP -raw $tmpfile $tmpfile2");
と書き換えてみましたところ、無事 pdf ファイルのインデックスが作れたよ
うに思えます。
さて、これでよかったのでしょうか。それとも他に正しい方法があるのでしょ
うか。
関係のありそうなパッケージのバージョンは次の通りです。
ii namazu2 2.0.10-1
ii namazu2-common 2.0.10-1
ii namazu2-index-tools 2.0.10-1
ii xpdf 1.00-3
ii xpdf-common 1.00-3
ii xpdf-japanese 20020202-1
ii xpdf-reader 1.00-3
ii xpdf-utils 1.00-3
# pdf ファイルには nmzgrep は使えないんですよね?