Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdfファイルの検索について



臼田です

平屋 宏記 wrote:
> > > 検索画面でpdfファイルの名前で直接検索したところ、
> > > 
> > > 6. 5-7.pdf (スコア: 17)
> > >     著者: 不明
> > >     日付: Fri, 04 Jul 2003 14:27:15
> > >     TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL TEL 
> > >     http://*/0302/pdf/5-7.pdf (1,166,709 bytes)
> > ...
> > > 6.のファイルを
> > > pdftotext -q -euc EUC-JP でtxtに変換すると
> > > 日本語で読むことはできました。
略
> > 変換したテキストファイルは何でどのようにして確認しましたか?
> > 変換したテキストファイルを vi で開くとどうなりますか?
> viを使用して普通に開き、読むことはできました。
> 
> > 制御コードとTEL が大量に入っているということはありませんか?
> 見た感じでは制御コードとTELは大量に入っておりませんでした。

pdftotext  -q -euc EUC-JP -raw 5-7.pdf
としてrawスイッチを付けた場合の出力結果での
先頭部分はいかがですか?
mknmzのpdfフィルターではこのスイッチも付いています。

臼田幸生