Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: namazu での PDF 検索について



From: teranisi@xxxxxxxxx さん曰く
Subject: [namazu-users-ja] Re: namazu での PDF 検索について
Message-ID: <39D41153.C3175383@xxxxxxxxx>
Date: Fri, 29 Sep 2000 12:49:39 +0900

## 全然詳しいわけではないのですが、手元にあるので試してみました。

> perl のライブラリで PDF を扱えるものがいくつかありますが、
> それらでできるのであれば、簡単に解決できるかもしれません。
> # 何方か、そういう情報に詳しい方、いらっしゃいますか?

pdf2txt(*1) には

% pdf2txt
PDF2TXT is a simple tool to extract text from PDF files.
Usage: pdf2txt [options] file...
    options are:
        -f <num>       : first page to extract
        -l <num>       : last page to extract
        -s             : output on stdout
        -i             : extract information and bookmark
        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

という option があって、例えば namazu/tests/data/ja/acrobat4.pdf を

% pdf2txt -i acrobat4.pdf 

と動かすと、acrobat4.inf という名前で

--------------------------------------
Author: test@xxxxxxxxxx
CreationDate: 20000215090710
Creator: Microsoft Word 
Keywords: namazu test Acrobat4
ModDate: 20000215091117+09'00'
Producer: Acrobat PDFWriter 4.0 Windows
Subject: Namazu の Acrobat 4テスト用ファイル
Title: Namazu のテスト
Pages: 1

--------------------------------------

といった内容のファイルが出来ます。これらをうまく使うように
pdf.pl を改造すれば Title: の表示が出来るかもしれません。

(*1) pdf2txt に関しては、(とりあえず)
 http://www.namazu.org/ml/namazu-win32-users-ja/msg00220.html
 を見てください。

-- 
白井秀行 (mailto:shirai@xxxxxxxxxxxxxxxxxxx)