Namazu-win32-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
画像のみのPDFファイルのインデックスについて
- From: "Rudolf Reiff" <r-reiff@xxxxxxxxxxxxxxxxx>
- Date: Thu, 18 Dec 2003 15:48:54 +0900
- X-ml-name: namazu-win32-users-ja
- X-mail-count: 01983
はじめまして、Reiffと申します。
PDFファイルのインデックス化について質問があります。
現在PDFファイルをインデックス化しているのですが、ファイルの中にスキャナで取
り込んだ画像のみの
PDFファイルが存在し、そのファイルのインデックス作成途中でOut of memory!と表
示されてしまいます。
過去のログを参考に$FILE_SIZE_MAX、$ON_MEMORY_MAX等の値を変えてはみたのですが
やはり結果は同じです。
問題のファイル(167MB)をコマンドからpdftotextでテキストファイルを作成し、作成
されたテキストファイルをmknmzで
インデックス化する場合は問題無くほぼ一瞬で完了します。
pdftotextで作成されたファイルは改行コードが136行分あるテキストファイルでし
た。
マニュアルなどの普通のPDFファイルはサイズが多少大きくてもインデックス化され
ます。
mknmzで画像のみのPDFファイルのインデックスを作成するのと違いがあるのでしょう
か。
参考になるHPでも何でも構いませんので、どなたかご教示をお願い致します。
[環境]
OS:Windows2000 Professional
メモリ:256MB
CPU:Celeron1066MHz
Namazu:2.0.12
Perl:5.6
kakasi:2.3.4
xpdf:2.03
[mknmzrcの設定]
$ON_MEMORY_MAX = 5000000;
$FILE_SIZE_MAX = 200000000;
$TEXT_SIZE_MAX = 600000000;