Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

pdf ファイルの検索



廣瀬ともうします。

pdfファイルの検索について質問させてください。

現在、Red Hat Linux 6.2J + Namazu 2.0.5 + pdftotxt 0.91 という
組合わせでpdfの検索を行っているのですが、正しくインデクスが
作成出来ないファイルが多く困っています。

検索すると以下のようになってしまいます。
# 適宜改行しています。

   $ namazu pdf /disk2/index/namazu
   検索結果

   参考ヒット数:  [ pdf: 404 ] 

   検索式にマッチする 404 個の文書が見つかりました。

   1. Y06B04.pdf (スコア: 16)
   '()*!# !"#$%&'(%)*+,-./0(123456789:;* !"#qrstuvwxys +","
   -"$"."/"0"1 <"*=>-?@78&'(%(1A%BC4DE7FG$HI7J <&'(%)*+,-./
   0"*K*%LMGNOI7J <"*K*4PQ78RS%TU(123%VWGXYZ0[I7J ! ""# ""$
    ""% ""& \!"]^_ -ab82cUd \ 02c
   /disk2/html/www/cabinet/pdf/Y06B04.pdf (139,483 bytes)

   2. K00B02.pdf (スコア: 16)
   '()*+,-.(SVE)/012!# !"#$%&'()*+,!"-./01(234567 3"4"5"$"6"
   7"8"9 8459/!"-.:;<45=>(?@%A3BCDEFGHI 8#$45/JK/LM(NO%PQR3B
   CDGSTHI ! ""# ""$ ""% ""& aalea5a-%a3 a ol/ * +mg!"ac (R)
   aF TM etc. fg%Ch%i* j +mgyz{
   /disk2/html/www/cabinet/pdf/K00B02.pdf (97,236 bytes)

それぞれのファイルをpdftotxtでテキスト抽出してみてみると、
たしかに、上記のように意味不明の文字列しか抽出されません。

もちろん、正しく抽出できるpdfファイルもありますので、双方の
違いを調べたところ
  OK:  Acrobat Distiller 4.05 for Macintosh
  NG:  Acrobat Distiller 4.05 for Windows
となりました。

pdfそのものをMac版 distillerで作り直せば解決しそうなの
ですが、それが出来ない状況なので困っております。

どなたか Windows版Distiller4.05でうまくいっておられる方
がいらっしゃいましたら、解決方法をお教え頂けませんでしょうか。