Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE: PDF ファイルのインデクス作成について



 山村といいます。

 XPDFのバージョンが新しすぎるためだと思います。
 0.91のあたりからXPDFの内部仕様が変わったため、
オプションなどが違うのです。
 マルチリンガル対応もパッチは不要になりました。

 namazu本の方法が使いたければ、古いXPDFを取得して
みてください。

 あるいは、新バージョンのXPDFのオプションを理解して、
filter/pdf.pl を手動で書き換えるという手もあります。
systemコールをちょっと触るだけです。

 Perlが読めるのでしたら、新バージョンのほうがパッチ
コンパイルしなくていいので楽です。暗号化外しも実装
されました。

> -----Original Message-----
> From: 平野 雄一 [mailto:hirano@xxxxxxxxxxxxxx]
> Sent: Monday, July 29, 2002 11:08 AM
> To: namazu-users-ja@xxxxxxxxxx
> Subject: [namazu-users-ja] PDF ファイルのインデクス作成について
> 
> 
> いつも拝見させて頂いております。
> 平野@tera です。
> 
> PDFファイルのインデクスを作成し、PDFファイルも検索対象としたいのですがうまくいきません。
> 現状は、xpdf-1.01 を configure 時に -enable-japanese オプションを付けコンパイルし、
> mknmz コマンドを用いてPDFファイルのインデクスを作成しようと試みましたが、
> 以下のエラーが発生し、インデクスを作成することができない状態です。
> =========================================================================================
> pdftotext version 1.01
> Copyright 1996-2002 Glyph & Cog, LLC
> Usage: pdftotext [options] <PDF-file> [<text-file>]
>   -f <int>          : first page to convert
>   -l <int>          : last page to convert
>   -raw              : keep strings in content stream order
>   -htmlmeta         : generate a simple HTML file, including the meta information
>   -enc <string>     : output text encoding name
>   -eol <string>     : output end-of-line convention (unix, dos, or mac)
>   -opw <string>     : owner password (for encrypted files)
>   -upw <string>     : user password (for encrypted files)
>   -q                : don't print any messages or errors
>   -cfg <string>     : configuration file to use in place of .xpdfrc
>   -v                : print copyright and version info
>   -h                : print usage information
>   -help             : print usage information
>   --help            : print usage information
>   -?                : print usage information
> 1/1 - /tmp/test/know_hwm%5B1%5D.pdf Unable to convert pdf file (maybe copying protection)
> ==========================================================================================
> 
> また、コマンドライン上から pdftotext コマンドを使用した場合には以下の様なエラーが表示されます。
> **********************************************************
> Error: Copying of text from this document is not allowed.
> **********************************************************
> 
> 
> NAMAZU本などでは以下のURLにパッチが存在し、それを当てれば良いと記述してありますが、
> パッチらしきものが見つかりません。(私が見つけられないだけかもしれません。)
> http://www.foolabs.com/xpdf/decryption.html
> 
> また、ftp://ftp.xopen.org/pub/PDF/xpdf/ に以下のパッチがありますが
> xpdf-0.7a-patch1
> xpdf-0.7a-patch2
> xpdf のバージョンを xpdf-0.7 に下げてパッチを当てれば解決するのでしょうか?
> 
> この件に関して何かご存知の方おりましたらご教授頂けないでしょうか?
> 
> 以下、環境となっております。
> ──────────────────────
> Miracle Linux Standard Edition V2.0 (Styrax)
> xpdf-1.01
> nkf-1.71
> namazu-2.0.10
> kakasi-2.3.4
> Text-Kakasi-1.05
> File-MMagic-1.15
> apache_1.3.19
> tomcat-3.2.1
> postgresql-7.1.3
> ──────────────────────
> 
> -以上です-
> 
> ====== mailto: hirano@xxxxxxxxxxxxxx ========
>    テラインターナショナル株式会社
>     システム開発部 平野 雄一
>    Tel 03-5979-7173 Fax 03-5979-7175
> ====== URL: http://www.teraintl.co.jp =======
> 
> 
>