Namazu-win32-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
PDFファイルのインデックス化に関して
- From: shiro sano/佐野 司郎 <sano1102@xxxxxxxxxxxxx>
- Date: Fri, 14 Nov 2003 23:46:45 +0900
- X-ml-name: namazu-win32-users-ja
- X-mail-count: 01956
はじめまして。
佐野と申します。
mknmz でのインデックス化にPDF文章も追加しようとして以下のように実行
したのですが、エラーで対応できません。
対処方法をご教授ください。
なお、過去の履歴(2002/JUL/30 PDFファイルのインデックス作成)を参考
にしましたがうまくいきませんでした。
どこが良くないのでしょうか?
●ハード構成
Windows 98SE
●実行結果(バッチファイルにて実行)
mknmz -O e:\なまず\index c:\52.pdf
コマンドまたはファイル名が違います.
検索対象のファイルを調べています...
1個のファイルがインデックス作成の対象として見つかりました
pdftotext version 2.03
Copyright 1996-2003 Glyph & Cog, LLC
Usage: pdftotext [option] <PDF-file> [<test-file>]
-f <int> :first page to convert
・
・
・
・
・
--help : print usage information
-? : print usage information
1/1 - /c|/52.pdf Unable to convert pdf file (maybe copying protection)
[基本]
日付: Sun Nov 9 16:22:35 2003
わかち書き: module_kakasi -ieuc -oeuc -w
経過時間 (秒): 88
ファイル/秒: 0.00
システム: MSWin32
Perl: 5.006001
Namazu: 2.0.12
C:\WINDOWS\SYSTEM>exit
●mknmz環境の確認
文字コード: sjis
CONFDIR: C:/namazu/etc/namazu
LIBDIR: C:/namazu/share/namazu/pl
FILTERDIR: C:/namazu/share/namazu/filter
TEMPLATEDIR: C:/namazu/share/namazu/template
対応メディアタイプ:
application/excel
application/ichitaro4
application/ichitaro5
application/ichitaro6
application/ichitaro7
application/msword
application/pdf
application/rtf
application/x-gzip
application/x-js-taro
message/news
message/rfc822
text/hnf
text/html
text/html; x-type=mhonarc
text/plain
text/plain; x-type=rfc
text/x-hdml
●MS-DOS の環境
PROMPT=$p$g
winbootdir=C:\WINDOWS
COMSPEC=C:\COMMAND.COM
LOG=NUL
DSHD=C:
QRCD=N:
JP=JP
BOTD=C:
MFG=YES
ZIPD=D:
CPQD=N:
CLASSPATH=C:\PROGRA~1\PHOTOD~1.1\ADOBEC~1
KANWADICTPATH=c:\kakasi\share\kakasi\kanwadict
ITAIJIDICTPATH=c:\kakasi\share\kakasi\itaijidict
PATH=C:\NAMAZU\BIN;C:\XPDF\;C:\XPDF\JAPANESE\;C:\KAKASI\BIN;C:\PERL\BIN\;C:\
WIND
OWS;C:\WINDOWS;C:\WINDOWS\COMMAND;C:\CPQS\SAVEREST;C:\CPQS\TOOLS;C:\WINDOWS\
COMM
AND;C:\WINDOWS
NAMAZURC=C:\namazu\etc\namazu\namazurc
NAMAZULOCALEDIR=C:\namazu\share\locale
MKNMZRC=C:\namazu\etc\namazu\mknmzrc
LANG=ja_JP.SJIS
windir=C:\WINDOWS
BLASTER=A220 I10 D1
C:\WINDOWS>
●pdftotext 単独実行(変換できました)
C:\WINDOWS>pdftotext c:\52.pdf
C:\WINDOWS>dir c:\52.*
ドライブ C: のボリュームラベルはありません.
ボリュームシリアル番号は 4E55-14A1
ディレクトリは C:\
52 TXT 8,216 03-11-14 5:56 52.txt
52 PDF 328,512 02-12-03 22:36 52.pdf
2 個 336,728 バイトのファイルがあります.
0 ディレクトリ 2,521.93 メガバイトの空きがあります.
C:\WINDOWS>
但し、変換できたファイルメモ帳で開くと、文字が化けています。
しかし、フリーソフト「サクラエディタ」でEUCコードで開くと正しく読めま
す。
(SJISで出来上がっているようです。)
●namazu , xpdf の保存場所及びバージョン
c:\namazu <== 保存場所(ドライブc:の直下のあります)
C:\>namazu -v
namazu of Namazu 2.0.12
c:\xpdf <== 保存場所(ドライブc:の直下のあります)
C:\>pdftotext
pdftotext version 2.03
●xpdfrcの内容
#textEncoding UTF-8
# 変更 2003/11/02 ↓↓↓
textEncoding EUC-JP
# 変更 2003/11/02 ↑↑↓↑
# ここから下は /japanese/add-to-xpdfrc のファイルを全部追加 2003/11/02
↓↓↓
#----- begin Japanese support package (2002-apr-01)
cidToUnicode Adobe-Japan1 c:\xpdf\japanese\Adobe-Japan1.cidToUnicode
unicodeMap ISO-2022-JP c:\xpdf\japanese\ISO-2022-JP.unicodeMap
unicodeMap EUC-JP c:\xpdf\japanese\EUC-JP.unicodeMap
unicodeMap Shift-JIS c:\xpdf\japanes\Shift-JIS.unicodeMap
cMapDir Adobe-Japan1 c:\xpdf\japanese\CMap
toUnicodeDir c:\xpdf\japanese\CMap
displayCIDFontX Adobe-Japan1
"-*-fixed-medium-r-normal-*-%s-*-*-*-*-*-jisx0208.1983-0" ISO-2022-JP
#----- end Japanese support package
以上