Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
word 文書のインデックス化できず
- From: yosimura <yosimura@xxxxxxxxxxxxxxxx>
- Date: Fri, 29 Sep 2000 12:19:03 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 00981
はじめまして。吉村@名古屋です。
netwareサーバに使っていてました。
namazuの導入を考え、win32版を利用してインデックスのみ作成し、社内webサー
バに載せようと考えていましたが、wordが死んでしまったり(ゾンビ化)して嫌
なので、苦慮していました。
今回、netwareからsambaに置き換えたのを機会に、linux上でnamazuを稼動させよ
うとテストしていると以下のような状況に陥って苦戦しています。
・使用環境
vinelinux2.0 + namazu-2.0.4
wvHtml 0.6.0
lv 4.49.4
・状況
txtファイルは正しくインデックスが作成できる。
wordは、できたようなフリをするが、正しくできていない。
・実行時詳細
$ mknmz -O /tmp/index/ ./
5個のファイルがインデックス作成の対象として見つかりました
1/5 - /home/yosimura/doc-test/1.doc [application/msword]
2/5 - /home/yosimura/doc-test/2.doc [application/msword]
3/5 - /home/yosimura/doc-test/3.doc [application/msword]
4/5 - /home/yosimura/doc-test/README_J.TXT [text/plain]
5/5 - /home/yosimura/doc-test/ie.txt [text/plain]
インデックスを書き出しています...
[基本]
日付: Fri Sep 29 12:03:20 2000
追加された文書の数: 5
サイズ (bytes): 74,651
合計の文書数: 5
追加キーワード数: 462
合計キーワード数: 462
わかち書き: /usr/bin/kakasi
経過時間 (秒): 15
ファイル/秒: 0.33
システム: linux
Perl: 5.00503
Namazu: 2.0.4
・行ったこと
$vfnmz /tmp/index/ > index.htmlで確認してみると、word文書のみ
0. 1.doc (score: ???)
Author: 不明
Date: Tue, 26 Sep 2000 13:53:57
Usage: /usr/local/bin/wvHtml <−−−−ここがおかしい。
/home/yosimura/doc-test/1.doc (23040 bytes)
と本文に相当する部分にwvHtmlなる記述が見られます。
そこで、wvHtmlで直接変換してみると、
Usage: /usr/local/bin/wvHtml <word document> <html output file>
というメッセージどおりにしか、コマンドを受け付けません。
このとおりに実行すれば、変換するのは確認しました(UTF8で吐き出します)
そこで、filterのmsword.plを覗いてみると、
sub filter_wvの中に、
if (!util::islang("ja")) {
system("$wordconvpath $tmpfile > $tmpfile2");
} else {
この記述があり、これはwvHtmlの要求する引数と異なるため、エラーを吐いてい
るのでは…。と考えました。
そこで、
system("$wordconvpath $tmpfile $tmpfile2");
~~~
に変更しテストしましたが、うまくいきませんでした。
ちなみにmknmz -Cでは以下のように出力されます。
読み込んだ設定ファイル: /etc/namazu/mknmzrc
システム: linux
Namazu: 2.0.4
Perl: 5.00503
NKF: /usr/bin/nkf
KAKASI: /usr/bin/kakasi
ChaSen: no -j -F '%m '
わかち書き: /usr/bin/kakasi
言語: ja
文字コード: euc
CONFDIR: /etc/namazu
LIBDIR: /usr/share/namazu/pl
FILTERDIR: /usr/share/namazu/filter
TEMPLATEDIR: /usr/share/namazu/template
対応メディアタイプ:
application/excel
application/msword
application/x-bzip2
application/x-compress
application/x-gzip
message/news
message/rfc822
text/hnf
text/html
text/html; x-type=mhonarc
text/plain
text/plain; x-type=rfc
text/x-roff
ここで行き詰まっています。何かヒントをいただけないでしょうか?
−−−−−−−−−−−−−−−−−
吉村 賢
E-mail yosimura@xxxxxxxxxxxxxxxx
−−−−−−−−−−−−−−−−−