Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
pdf ファイルの検索
- From: HIROSE Yoshihide <yoshihide@xxxxxxxxxx>
- Date: Mon, 02 Apr 2001 09:32:15 +1000
- X-ml-name: namazu-users-ja
- X-mail-count: 01641
廣瀬ともうします。
pdfファイルの検索について質問させてください。
現在、Red Hat Linux 6.2J + Namazu 2.0.5 + pdftotxt 0.91 という
組合わせでpdfの検索を行っているのですが、正しくインデクスが
作成出来ないファイルが多く困っています。
検索すると以下のようになってしまいます。
# 適宜改行しています。
$ namazu pdf /disk2/index/namazu
検索結果
参考ヒット数: [ pdf: 404 ]
検索式にマッチする 404 個の文書が見つかりました。
1. Y06B04.pdf (スコア: 16)
'()*!# !"#$%&'(%)*+,-./0(123456789:;* !"#qrstuvwxys +","
-"$"."/"0"1 <"*=>-?@78&'(%(1A%BC4DE7FG$HI7J <&'(%)*+,-./
0"*K*%LMGNOI7J <"*K*4PQ78RS%TU(123%VWGXYZ0[I7J ! ""# ""$
""% ""& \!"]^_ -ab82cUd \ 02c
/disk2/html/www/cabinet/pdf/Y06B04.pdf (139,483 bytes)
2. K00B02.pdf (スコア: 16)
'()*+,-.(SVE)/012!# !"#$%&'()*+,!"-./01(234567 3"4"5"$"6"
7"8"9 8459/!"-.:;<45=>(?@%A3BCDEFGHI 8#$45/JK/LM(NO%PQR3B
CDGSTHI ! ""# ""$ ""% ""& aalea5a-%a3 a ol/ * +mg!"ac (R)
aF TM etc. fg%Ch%i* j +mgyz{
/disk2/html/www/cabinet/pdf/K00B02.pdf (97,236 bytes)
それぞれのファイルをpdftotxtでテキスト抽出してみてみると、
たしかに、上記のように意味不明の文字列しか抽出されません。
もちろん、正しく抽出できるpdfファイルもありますので、双方の
違いを調べたところ
OK: Acrobat Distiller 4.05 for Macintosh
NG: Acrobat Distiller 4.05 for Windows
となりました。
pdfそのものをMac版 distillerで作り直せば解決しそうなの
ですが、それが出来ない状況なので困っております。
どなたか Windows版Distiller4.05でうまくいっておられる方
がいらっしゃいましたら、解決方法をお教え頂けませんでしょうか。