Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re:ole Option



上口です。

>上口>  $ALLOW_FILE =	".*\\.(?:$HTML_SUFFIX)|.*\\.txt" .
>上口>  		"|.*\\.pdf|.*\\.doc|.*\\.xls" .
>上口> 		"|.*\\.ppt" .
>
>これって、/namazu/etc/mknmzrc (~/.mknmzrc あるいは -I file) を上
>記のように書き換えたということでしょうか?

\namazu\etc\namazu\mknmzrc を書き換えました。

>
> $ALLOW_FILE =	".*\\.(?:$HTML_SUFFIX)|.*\\.txt" .
> 		"|.*\\.pdf|.*\\.doc|.*\\.xls" .
>		"|.*\\.ppt";
>
>だとどうですか。

結果に変化はありませんでした。

>
># もし、上口さんのかかれたままだと Perl の代入文になっていないの
># で。。。試したのですが、エラーにはならないで、default 設定を使
># うようです。

=	" 間にスペースが無いとのご指摘ですね。
この場合 default を触ってる(\namazu\etc\namazu\mknmzrc)と
誤動作の原因になるという事でしょうか

>こちらは、--ole(-o) option が無いから、pdf 以外の挙動は納得でき
>ます。pdf が無視されるのは

広瀬さんから、以下のように -a は万能とご指摘があったのですが、どちらが
namazu の仕様としては正しいのでしょうか!?
<広瀬さん>mknmz --help を見て頂ければ判ると思いますが、 -a は全ての
<広瀬さん>データをインデックスの対象とするという option です。

>上口> さっそく xpdf-0.90-win32 より pdftotext を追加し
>pdftotext.exe に path が通っていないということは無いでしょうか?

2つの質問が入り混じってすみませんが、
pdftotext は \namazu\bin\pdftotext として存在し、単独コマンドとして
利用しています。

>こちらは、きっと '--all --ole' と二つ書けば大丈夫なのではないで
>しょうか。

むむっ。結局 -a -o の2つのオプションが必要!?
ここで実験です。対象ディレクトリ中に、doc,xls,ppt,pdf を1ファイル用意して
mknmz -a -o -O にて各文章のタイトル無でテストするとエラーが発生しましたが
doc.xls.ppt は対象ファイルとなりました。
しかし ppt については文字化けが発生しており、xls に関してはキーワードがありません。
詳しくは wdnmz に代わるコマンド知らないので解りませんが。。。

試しに 対象ディレクトリ内に xls のみとして mknmz -a -o -O を実施すると
1個のファイルがインデックス作成の対象として見つかりました
1/1 - /e|/www/trip/test_xls.xls Oops, cannot start PowerPoint at C:/namazu/share/namazu/filter/olepowerpoint.pl line 151.
となります。(Oops って洒落たエラーだ)

また、各文章のタイトル有(これがヘッダーの事と思い。。)で実施しますと
結果はまったく変わりませんでした。(キーワードが2個は増えましたが)

># ただし、私の環境では excel と powertpoint は Win32::OLE がエラー
># しまくるので動作しませんけど。。。

私も以下のエラーが大量生産されています。
Win32::OLE(0.1101) error 0x80020009: "例外が発生しました。"
    in METHOD/PROPERTYGET "Value" at C:/namazu/share/namazu/filter/olepowerpoint.pl line 124
Use of uninitialized value at C:/namazu/share/namazu/filter/olepowerpoint.pl line 126, <GEN3> chunk 4.
Use of uninitialized value at C:/namazu/share/namazu/filter/olepowerpoint.pl line 132, <GEN3> chunk 4.
OLE exception from "Microsoft PowerPoint 8.0":

HeadersFooters.Header : 無効な要求です。スライドにヘッダーがありません。

>
># File-MMagic が MS-Office の file type を誤判別するしね。
># MS の作る file の Magic Number って 100% 判定するのは無理なん
># じゃないかなぁ、と思っています。Win32::OLE のときは、気持悪い
># けど '拡張子' で判別なのかなぁ。

私は、以前namazu1.3.0.11 で ML #1111 #1114 #503 を参考に全文検索を
やっておりましたが、キーワードの強調表示がほしいだけで 
2.0 化を試みていますが、まいりました。。