Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: xdoc2txtを利用したインデックス作成で、作成者が不明になる



フィルター投稿者の花井と申します。

──h-nakatomi@xxxxxxxxxさんwrote:──
  On Fri, 13 Jun 2003 20:50:30 +0900
  Subject: [namazu-win32-users-ja] xdoc2txtを利用したインデックス作成で〜
───────────────────────────────────
> インデックス作成時の、安定感は抜群ですが、作成者が、「不明」と出るのが、
> 不満点です。
> 様々なファイルの共通フィルターなので、仕方がないのでしょうか。
> (私は、WORD、EXCEL、POWERPOINT、PDFは、この
> フィルターでインデックスを作成たいと思っています)

とりあえず、現在のxdoc2txtは文書内容をテキストとして抽出しているだけで、
作者情報などその他の情報は抽出していないようです。

各ファイルから作成者情報を抜き取れるフィルター的なプログラムがあれば、
それを使用してフィルターを変更するしかないと思われます。。
(pdf.plで、本文抽出に'pdftotext',タイトルや作成者抽出に'pdfinfo'を使用して
 いる部分などを参考にして)

作成者情報フィルター的なものすら無ければ、本文抽出にxdoc2txtを使用している
以上あきらめるしかないようです。

============================================================================
NECフィールディング.東日本CSD.テクニカルサポート部.花井 亮(はない あきら)
----------------------------------------------------------------------------