Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

PDF ファイルの検索結果の要約に同じ文字が連続する



内田と申します。
いつも、丁寧に教えていただきありがとうございます。

早速ですが、PDFファイルの要約について教えてください。
特定のPDFファイルの検索結果の要約に同じ文字が4回続くものがあります。
「あいうええええお」
元のPDF文書を見ると「え」の文字が4倍角(PDF文書をよく知らないので表現が
おかしいですが、縦横各2文字分の大きな文字)になっているようです。この場合
「え」を1回だけ出すような方法はあるでしょうか。

namazu の問題でなく pdftotext の問題だと思いますが、よろしくお願いします。

【環境】
RedHat Linux6.2J
namazu 2.0.5
pdftotext 0.92

--
Hiroki Uchida