Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: namazu での PDF 検索について
- From: Takeuchi <arg00032@xxxxxxxxxxxxxxxxxx>
- Date: Fri, 29 Sep 2000 15:14:24 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 00987
竹内です。
情報ありがとうございます。
♪
♪## 全然詳しいわけではないのですが、手元にあるので試してみました。
♪
♪> perl のライブラリで PDF を扱えるものがいくつかありますが、
♪> それらでできるのであれば、簡単に解決できるかもしれません。
♪> # 何方か、そういう情報に詳しい方、いらっしゃいますか?
♪
♪pdf2txt(*1) には
♪
♪% pdf2txt
♪PDF2TXT is a simple tool to extract text from PDF files.
♪Usage: pdf2txt [options] file...
♪ options are:
♪ -f <num> : first page to extract
♪ -l <num> : last page to extract
♪ -s : output on stdout
♪ -i : extract information and bookmark
♪ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
♪
♪という option があって、例えば namazu/tests/data/ja/acrobat4.pdf を
♪----------------------------------------------省略
♪
pdf2txtというのは私が使っていますpdftotextのWin32版ですか?
(すみませんインターネットが見れない環境にある為,確認ができません)
私の場合OSはLinuxなのですが、pdftotextのヘルプをみると
----------------------------------------------
pdftotext version 0.91
Copyright 1996-2000 Derek B. Noonburg
Usage: pdftotext [options] <PDF-file> [<text-file>]
-f <int> : first page to convert
-l <int> : last page to convert
-ascii7 : convert to 7-bit ASCII (default is 8-bit ISO Latin-1)
-latin2 : convert to ISO Latin-2 character set
-latin5 : convert to ISO Latin-5 character set
-eucjp : convert Japanese text to EUC-JP
-raw : keep strings in content stream order
-upw <string> : user password (for encrypted files)
-q : don't print any messages or errors
-v : print copyright and version info
-h : print usage information
-help : print usage information
----------------------------------------------------
と出力がでてきて、カンジンな”-i”オプションがありません。
この中からそれに相当するようなのも無いようです・・・
それでアドバイスをヒントに"-raw"オプションでPDFファイルを
テキスト変換して結果のテキストファイルの頭の一行をタイトルと
しようかと考えたのですが、pdf.plの中を見ますと
-eucjpオプションを使ってテキスト変換されています。
それを-rawオプションに変更すると変換で何か不具合など発生してしまう
ということがあるがご存知でしたら教えてください。
コマンド上で"pdftotext -raw"を確認したところ問題は無いように
見えたのですが・・・・
-------------------------------------------------------------
アルゴ 竹内 晴恵(arg00032@xxxxxxxxxxxxxxxxxx)
内線:2422
-------------------------------------------------------------