Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

word 文書のインデックス化できず



はじめまして。吉村@名古屋です。

netwareサーバに使っていてました。
namazuの導入を考え、win32版を利用してインデックスのみ作成し、社内webサー
バに載せようと考えていましたが、wordが死んでしまったり(ゾンビ化)して嫌
なので、苦慮していました。
今回、netwareからsambaに置き換えたのを機会に、linux上でnamazuを稼動させよ
うとテストしていると以下のような状況に陥って苦戦しています。

・使用環境
 vinelinux2.0 + namazu-2.0.4
 wvHtml 0.6.0
 lv 4.49.4

・状況
 txtファイルは正しくインデックスが作成できる。
 wordは、できたようなフリをするが、正しくできていない。

・実行時詳細
 $ mknmz -O /tmp/index/ ./
 5個のファイルがインデックス作成の対象として見つかりました
 1/5 - /home/yosimura/doc-test/1.doc [application/msword]
 2/5 - /home/yosimura/doc-test/2.doc [application/msword]
 3/5 - /home/yosimura/doc-test/3.doc [application/msword]
 4/5 - /home/yosimura/doc-test/README_J.TXT [text/plain]
 5/5 - /home/yosimura/doc-test/ie.txt [text/plain]
 インデックスを書き出しています...
 [基本]
 日付:                Fri Sep 29 12:03:20 2000
 追加された文書の数:  5
 サイズ (bytes):      74,651
 合計の文書数:        5
 追加キーワード数:    462
 合計キーワード数:    462
 わかち書き:          /usr/bin/kakasi
 経過時間 (秒):       15
 ファイル/秒:         0.33
 システム:            linux
 Perl:                5.00503
 Namazu:              2.0.4

・行ったこと
 $vfnmz /tmp/index/ > index.htmlで確認してみると、word文書のみ
 
 0. 1.doc (score: ???) 
        Author: 不明 
        Date: Tue, 26 Sep 2000 13:53:57 
        Usage: /usr/local/bin/wvHtml    <−−−−ここがおかしい。
        /home/yosimura/doc-test/1.doc (23040 bytes)
 
 と本文に相当する部分にwvHtmlなる記述が見られます。
 
 そこで、wvHtmlで直接変換してみると、
 Usage: /usr/local/bin/wvHtml <word document> <html output file>
 というメッセージどおりにしか、コマンドを受け付けません。
 このとおりに実行すれば、変換するのは確認しました(UTF8で吐き出します)
 
 そこで、filterのmsword.plを覗いてみると、
 sub filter_wvの中に、
     if (!util::islang("ja")) {
        system("$wordconvpath $tmpfile > $tmpfile2");
    } else {
 この記述があり、これはwvHtmlの要求する引数と異なるため、エラーを吐いてい
 るのでは…。と考えました。
 そこで、
        system("$wordconvpath $tmpfile   $tmpfile2");
                                      ~~~
 に変更しテストしましたが、うまくいきませんでした。
 ちなみにmknmz -Cでは以下のように出力されます。
 
読み込んだ設定ファイル: /etc/namazu/mknmzrc
システム: linux
Namazu: 2.0.4
Perl: 5.00503
NKF: /usr/bin/nkf
KAKASI: /usr/bin/kakasi
ChaSen: no -j -F '%m '
わかち書き: /usr/bin/kakasi
言語: ja
文字コード: euc
CONFDIR: /etc/namazu
LIBDIR: /usr/share/namazu/pl
FILTERDIR: /usr/share/namazu/filter
TEMPLATEDIR: /usr/share/namazu/template
対応メディアタイプ:
  application/excel
  application/msword
  application/x-bzip2
  application/x-compress
  application/x-gzip
  message/news
  message/rfc822
  text/hnf
  text/html
  text/html; x-type=mhonarc
  text/plain
  text/plain; x-type=rfc
  text/x-roff

ここで行き詰まっています。何かヒントをいただけないでしょうか?

−−−−−−−−−−−−−−−−−
 吉村 賢
 E-mail yosimura@xxxxxxxxxxxxxxxx
−−−−−−−−−−−−−−−−−