Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: PDF ファイルの Indexing エラーについて



 奈良の久保です。

 PDF のページ単位インデックスの件、解決しました。

On Sat, 29 Apr 2000 22:40:33 +0900 (JST)
Hideyuki SHIRAI (白井秀行) <shirai@xxxxxxxxxxxxxxxxxxx> wrote:

> Namazu の検索結果の単位(?)は文書(というか file) ですので、これ
> は Namazu を単純に使うだけでは無理です。
> 
> # 現状の唯一の例外が、--html-split です。

 そうですよね。ただ、Namazu-2.0 のリリース時に、これが目に付いたので、
「HTMLが <a name="..."> タグ単位でできるくらいなら、PDF もページ単位で」
と勝手に思いこんでいました。


> > ところが
> > 実際に Namazu をインストールして見ると、文書フィルタに xpdf に付属する
> > pdftotxt が使われており、そのままでは PDF内に含まれているか否かしか
> > わからないようです。(私も、900ページほどの、あるマニュアルに対して
> > 全文検索できるように、と始めました。)
> 
> pdftotxt でも pdf2txt でも同じ方法でできると思うのですが、特に難
> しいことをやっているわけではなく、Namazu-2.0.x で Replace がとっ
> ても賢くなったのを利用しています。

 (後略)

 丁寧な説明、ありがとうございました。なるほど、肝は Replace
だったのですね。おかげさまで、私もページ単位で検索できるように
なりました。ページ単位でのテキスト分割には、Perl を使いました。
ただ、当初、pdf2txt のバージョンが 0.81 だったのですが、
処理結果中、本来改ページでないところに 改ページコード(^L, 0x0c) が
含まれてしまうことがあり、これにはちょっと焦りました。
この現象は pdf2txt を0.95 にすることで解決しています。


> MD5 自体は gcc を使えばなんにも問題なく make/install できるは以
> 前から知っているのですが、Perl module だとどうすればいいのか全然
> 知識がないので、安直にギブアップしてしまいました。
> 
> # MD5 がないと当初の目的が。。。^^;;;

 いえ、私も自分がどういう状況だったかを思い出せました。
pdf2txt のインストールの際、私も、MD5モジュール(Digest MD5)の
インストールに失敗しました。RC4 のライセンスのこともあったので、
あきらめて no_crypt バージョンを使うようにしたのでした。
環境は WindowsNT4 + ActivePerl-522(+日本語化パッチ) + Cygwin B20.2 です。
失敗内容は、 gcc 実行時に引けないライブラリがある、というものでした。
白井さんのメールでは gcc で MD5自体はインストールできるということなので、
同じようにライブラリの設定をすれば解決できたのかもしれません。
(白井さんの環境で、CC の設定だけ gcc にすれば行ける??)

 それで、私も一通りできるようになったということで、嬉しがって
いくつか PDF のインデックスを作っていたのですが、やはり(?)
デフォルトパスワードで crypt された PDF が出てきました。
とりあえず、それらは1ファイルに数百ページ、という形式のものだったので、
Acrobatを使ってセキュリティオプションなしで再度 PDF に書き出し、
pdf2txt に掛けました。複数の PDF からなるものに対して自動化できないかは
ちょっと思案中ですが、難しいかもしれません。


> というわけで、わざわざ文書フィルタとして作り上げる手間をかけなく
> ても、ちょっとした応用で幸せになりますよ、というお話でした。

 逆に、この手順を文書フィルタにする、ということは可能なんでしょうか?
(crypt/no crypt のことは忘れて)
なんとなく可能そうな感じがするので、また機会を見て文書フィルタの
作りとかを見ながらやってみようかと思っているのですが。
(もっとも、文書フィルタでなくとも自動化できる、という気も
しますが、.namazurc に Replace を挿入して行かなければならないあたりが、
できるにしても環境依存部分が多くて、余りエレガントではないような
気がします。 (^^;)

--
久保 善道
selvid@xxxxxxxxxxxx