Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: pdf の検索
的場です。
>
> AdobeにはAcrobat Captureという製品があり、英語を含めた6カ国語のOCRを持った
PDF変換を実現してます。スキャン作業からビットマップの変換までをサポートしま
す。この機能の一部をAcrobat英語版(欧米版)ではPlug-inとして標準で持ってます
が、日本語版はスキャンとビットマップ変換部分だけが搭載されていているわけで
す。
> なお、メディアドライブのOCRエンジンをつかって上記の日本語版をちょっとだけ
実現している会社もあります。ハイパーギアのP-scan OCRという製品です。
> <http://www.hypergear.com/pdf/PDFmain.htm>
> これで作られるPDFは、イメージ+隠れテキスト型です。最新版はテキストに位置情
報を持たせることが出きるようになっているそうです。もちろんNamazuで検索できま
す。
>
大変貴重な御意見、ありがとうございます。
しかし、OCRということは、当然100%の変換率は望めないわけで、
その当たりの手間をかけられるかどうかにかかっていますね。
更に、御意見を伺いたいのですが、データベース(例えばpostgreSQL)等は
namazuの検索対象にできませんよね。
まあ、sqlを発行すればいいのか・・・。
御教授、よろしくお願いします。