Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdf の検索



井上です。

直接の解決にはなりませんが、ご参考まで。

AdobeにはAcrobat Captureという製品があり、英語を含めた6カ国語のOCRを持ったPDF変換を実現してます。スキャン作業からビットマップの変換までをサポートします。この機能の一部をAcrobat英語版(欧米版)ではPlug-inとして標準で持ってますが、日本語版はスキャンとビットマップ変換部分だけが搭載されていているわけです。

Captureの機能はスキャンしたイメージやPDFのイメージ部分をOCRを通してテキスト化することなのですが、特徴的なのは、最後に吐き出せるPDFのスタイル(ほかにWordなど複数選択可)です。
ます、文字の位置情報を持っていて、そのままのイメージで再テキスト化(フォントやサイズ、修飾も擬似的に再現)するPDFで、ドキュメントに含まれる写真や線画などイメージ部分も識別して、そのまま配置してくれます。
もう一つは、PDFの画面表示や印刷時にはスキャンしたイメージをそのまま使うが、見えないレイヤーに先述のOCRテキストを隠して持たせておけるスタイルのPDFです。
これを使うと、オリジナル通り(例えば、サインや印影などもそのまま)の再現性を持たせながら、テキストの検索が出きるようになります。一見すると、スキャンしただけの普通のビットマップイメージだけのPDFに見えますが、画面上の文字のイメージ部分をマウスで選択して、テキストのコピー&ペーストができます。欧米の公文書などの電子化はこの方式をとっているところも多くあります。
詳細はadobe.comでどうそ。

Acrobat Capture日本語版はマーケティング中だそうですが、市場が見えないので、日本語化の目処は立っていないとのことです。

なお、メディアドライブのOCRエンジンをつかって上記の日本語版をちょっとだけ実現している会社もあります。ハイパーギアのP-scan OCRという製品です。
<http://www.hypergear.com/pdf/PDFmain.htm>
これで作られるPDFは、イメージ+隠れテキスト型です。最新版はテキストに位置情報を持たせることが出きるようになっているそうです。もちろんNamazuで検索できます。

では。

At 10:28 AM +0900 00.10.19, M.Matoba wrote:
>いつも、お世話になっています。的場です。
>
>さて、ちょっと気になったのですが、pdfファイルも
>検索対象に含めるには、文書フィルターとして
>xpdfをインストールすれば良いと思うのですが、
>これって画像(gifやjpeg)で取り込んだ文章を
>pdf化したものでも可能なのでしょうか?
>
>御教授、よろしくお願いします。