Namazu-win32-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: pdf の全文検索の設定方法
ども、佐藤@自宅です。
On Fri, 22 Dec 2000 10:23:14 +0900
Hiroshi ADACHI <adachi@xxxxxxxxxxxxxxxxxxxxxx> wrote:
> これらのことから、日本語の処理がうまくいっていないのではないか、と思ったの
> です。
以下のページを参考にしてPDFを試した所、インデックスが作成できました。
http://www5.big.or.jp/~susumu/ih_pdfsearch/
【作業内容】
1.pdftotext.exe の準備
・http://www.foolabs.com/xpdf/ よりWindows版 xpdf-0.92-win32-ms.zip
をダウンロード。
・zip を展開して pdftotext.exe を c:\namazu\bin へコピー
・実際に変換できるかテストしてみる。
C:\temp>pdftotext -q あいう.pdf あいう.txt
・mknmz -C で確認
対応メディアタイプに application/pdf が追加されていること。
2.gzip.exe の準備
#これが必要かどうかは不明(^^;
・http://w3.gzip.org/ よりWindows版 gzip124xN.zip をダウンロード。
・zip を展開して gzip.exe を c:\namazu\bin へコピー
3.pdf.pl の修正
・C:\namazu\share\namazu\filter\pdf.pl をエディタ(メモ帳)で開き
73行目を以下のように修正。
system("$pdfconvpath -q -eucjp $tmpfile $tmpfile2");
↓
system("$pdfconvpath -q $tmpfile $tmpfile2");
"-eucjp"を外すだけです。
4.mknmz でインデックス作成
mknmz -U -O C:\namazu\var\namazu\index C:\foo
【動作確認環境】
・Windows98SE + IE5.5
・namazu 2.0.5
・kakasi 2.3.2
・ActivePerl 5.6.0.620
・AN HTTPD 1.32f
・pdftotext 0.92(xpdf-0.92-win32-ms.zip)
・gzip 1.2.4
・AcrobatReader 4.0J
佐藤 充男
satou@xxxxxxxxxxxxxx