Namazu-win32-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
pdftotext 文字化けします
- From: "西村 哲哉" <nisimura@xxxxxxxxx>
- Date: Tue, 23 Jul 2002 14:42:05 +0900
- X-ml-name: namazu-win32-users-ja
- X-mail-count: 01416
初めまして西村と申します。
pdftotextコマンドでPDFファイルのテキストデータ(含日本語)を
取り出したいのですが、作成されたテキストファイルの
中身を見ると、日本語が文字化けしています。
半角英数字は取り出せているのですが、日本語が化けています。
過去メールなど見て試行錯誤しましたが、どうしてもうまくいきません。
その際、関係あると思われる、以下のようなエラーが返ってきます。
Error: Couldn't find cidToUnicode file for the 'Adobe-Japan1' collection
Error: Unknown character collection 'Adobe-Japan1'
Error: Unknown font tag 'G1'
Error: Unknown font tag 'G1'
Error: Unknown font tag 'G1'
<環境>
Windows2000 Professional
IIS5.0
Namazu 2.0.10
<設定>
・xpdf: version 1.01を使用
1. XPDF: ftp://ftp.foolabs.com/pub/xpdf/xpdf-1.01-win32.zip
C:\Program Files\Xpdfに展開。
2. Japanese Language Support Package:
ftp://ftp.foolabs.com/pub/xpdf/xpdf-japanese.tar.gz を
C:\Program Files\Xpdfに展開。
3. C:\Program Files\Xpdf\japanese\add-to-xpdfrc を編集
/usr/local/share/xpdf/japanese/を Windows のパス名に置き換える。
→C:\xpdf\japanese\ に変更
4. 編集した C:\Program Files\Xpdf\japanese\add-to-xpdfrc を
C:\Program Files\Xpdf\xpdfrc.txtの最後に追加。
5. pdftotext.exe のありかをPATHに追加
6. C:\namazu\share\namazu\filter\pdf.plを編集
73行目
変更前 system("$pdfconvpath -q -eucjp -raw $tmpfile $tmpfile2");
変更後 system("$pdfconvpath -q -enc EUC-JP -raw $tmpfile $tmpfile2");
どなたかご教授ください。よろしくお願いします。
-------------------------
西村 哲哉
nisimura@xxxxxxxxx