Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: --media-typeオプションの指定の仕方
- From: Tadamasa Teranishi <yw3t-trns@xxxxxxxxxxxxxxx>
- Date: Thu, 20 Mar 2003 16:21:20 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 03115
- References: <20030320144317.eehay@lycos.jp>
寺西です。
# Reply-To: は削らないで。
eehay wrote:
>
> 少しでも、インデックス作成スピードを上げたいと思い、
> Namazuの豆知識の内容にある --media-type=mtypeオプション
> を使うことを試みようとしました。
> 対象ファイルはMS-Office文書(Word、Excel、PowerPoint)
> 、PDF文書ですが、どんな変数を入れればよいかが
> わかりませんでした。
Word なら application/msword
Excel なら application/excel
PowerPoint なら application/powerpoint
PDF なら application/pdf
になるかと思いますが、--media-type は「対象ファイルの文書形式が
あらかじめわかっている」場合に使えるものです。
様々な文書形式が混在する場合は無理ではなかったかと思います。
そのため拡張子で区別して、4回の mknmz で処理することは可能か
と思います。
--allow=".*\.doc" --media-type="application/msword"
--allow=".*\.xls" --media-type="application/excel"
--allow=".*\.ppt" --media-type="application/powerpoint"
--allow=".*\.pdf" --media-type="application/pdf"
ただし、文書形式の自動判別にかかる時間はほんのわずかかと思います
ので、4回に分けて処理する方がむしろ時間がかかるかもしれません。
また、速度を上げるという意味では、余計な文書形式の処理を省く
処理だけで良いかもしれません。
--allow=".*\.doc|.*\.xls|.*\.ppt|.*\.pdf"
として対象ファイルを Word, Excel, PowerPoint, PDF のみに限定
することができます。
余計な文書形式のファイルが多数ある場合は、余計なファイルの
処理を行わないので、少しは速度があがるかと思います。
(元々、Word, Excel, PowerPoint, PDF しかなければ、効果は
ありません。)
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E