Namazu-users-ja(旧)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

about pdf file

From: 松永均 <nmz@xxxxxxxxxxxx>
Date: Tue, 02 Jul 2002 11:47:14 +0900 (JST)
X-ml-name: namazu-users-ja
X-mail-count: 02677

松永と申します。

debian/woody のパッケージで namazu を使わせていただいています。
日本語の pdf のインデックス付けについてですが、最初
mknmz hoge.pdf としてもうまくインデックスが出来ませんでした。

調べたところ pdf.pl の中に
system("$pdfconvpath -q -eucjp -raw $tmpfile $tmpfile2");
という記述がありましたが、手で

pdftotext -q -eucjp -raw hoge.pdf hoge.txt
とするとエラーになってしまいます。しかし

pdftotext -q -enc EUC-JP -raw hoge.pdf hoge.txt
とすれば、hoge.txt は一応読めます。

そこで pdf.pl の当該部分を

system("$pdfconvpath -q -enc EUC-JP -raw $tmpfile $tmpfile2");
と書き換えてみましたところ、無事 pdf ファイルのインデックスが作れたよ
うに思えます。

さて、これでよかったのでしょうか。それとも他に正しい方法があるのでしょ
うか。

関係のありそうなパッケージのバージョンは次の通りです。

ii  namazu2                            2.0.10-1  
ii  namazu2-common                     2.0.10-1  
ii  namazu2-index-tools                2.0.10-1  

ii  xpdf                               1.00-3    
ii  xpdf-common                        1.00-3    
ii  xpdf-japanese                      20020202-1
ii  xpdf-reader                        1.00-3    
ii  xpdf-utils                         1.00-3    

# pdf ファイルには nmzgrep は使えないんですよね？

Follow-Ups:
- Re: about pdf file
  - From: NOKUBI Takatsugu
- 本人？偽者？
  - From: Yoshiyuki Okura

Prev by Date: Re: NMZ.result.* (pnamazu の出力結果における文法について)
Next by Date: 本人？偽者？
Previous by thread: Re: NMZ.result.* (pnamazu の出力結果における文法について)
Next by thread: 本人？偽者？
Index(es):
- Date
- Thread