Namazu-win32-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: xdoc2txtを利用したインデックス作成で、作成者が不明になる
- From: "HANAI,Akira" <hanai-a@xxxxxxxxxxxxxxxxxxxxxxx>
- Date: Mon, 16 Jun 2003 15:09:17 +0900
- X-ml-name: namazu-win32-users-ja
- X-mail-count: 01839
- References: <49256D44.00410380.00@nsrv1.rd.ykk.co.jp>
フィルター投稿者の花井と申します。
──h-nakatomi@xxxxxxxxxさんwrote:──
On Fri, 13 Jun 2003 20:50:30 +0900
Subject: [namazu-win32-users-ja] xdoc2txtを利用したインデックス作成で〜
───────────────────────────────────
> インデックス作成時の、安定感は抜群ですが、作成者が、「不明」と出るのが、
> 不満点です。
> 様々なファイルの共通フィルターなので、仕方がないのでしょうか。
> (私は、WORD、EXCEL、POWERPOINT、PDFは、この
> フィルターでインデックスを作成たいと思っています)
とりあえず、現在のxdoc2txtは文書内容をテキストとして抽出しているだけで、
作者情報などその他の情報は抽出していないようです。
各ファイルから作成者情報を抜き取れるフィルター的なプログラムがあれば、
それを使用してフィルターを変更するしかないと思われます。。
(pdf.plで、本文抽出に'pdftotext',タイトルや作成者抽出に'pdfinfo'を使用して
いる部分などを参考にして)
作成者情報フィルター的なものすら無ければ、本文抽出にxdoc2txtを使用している
以上あきらめるしかないようです。
============================================================================
NECフィールディング.東日本CSD.テクニカルサポート部.花井 亮(はない あきら)
----------------------------------------------------------------------------