Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: namazu での PDF 検索について
From: teranisi@xxxxxxxxx さん曰く
Subject: [namazu-users-ja] Re: namazu での PDF 検索について
Message-ID: <39D41153.C3175383@xxxxxxxxx>
Date: Fri, 29 Sep 2000 12:49:39 +0900
## 全然詳しいわけではないのですが、手元にあるので試してみました。
> perl のライブラリで PDF を扱えるものがいくつかありますが、
> それらでできるのであれば、簡単に解決できるかもしれません。
> # 何方か、そういう情報に詳しい方、いらっしゃいますか?
pdf2txt(*1) には
% pdf2txt
PDF2TXT is a simple tool to extract text from PDF files.
Usage: pdf2txt [options] file...
options are:
-f <num> : first page to extract
-l <num> : last page to extract
-s : output on stdout
-i : extract information and bookmark
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
という option があって、例えば namazu/tests/data/ja/acrobat4.pdf を
% pdf2txt -i acrobat4.pdf
と動かすと、acrobat4.inf という名前で
--------------------------------------
Author: test@xxxxxxxxxx
CreationDate: 20000215090710
Creator: Microsoft Word
Keywords: namazu test Acrobat4
ModDate: 20000215091117+09'00'
Producer: Acrobat PDFWriter 4.0 Windows
Subject: Namazu の Acrobat 4テスト用ファイル
Title: Namazu のテスト
Pages: 1
--------------------------------------
といった内容のファイルが出来ます。これらをうまく使うように
pdf.pl を改造すれば Title: の表示が出来るかもしれません。
(*1) pdf2txt に関しては、(とりあえず)
http://www.namazu.org/ml/namazu-win32-users-ja/msg00220.html
を見てください。
--
白井秀行 (mailto:shirai@xxxxxxxxxxxxxxxxxxx)