Namazu-win32-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdf の全文検索の設定方法



足立@静岡です。

Takashi Harada さんは書きました:
>
>>At 20:22 00/12/21 +0900, you wrote:
>>足立@静岡です。
>>Subject::pdf の全文検索の設定方法
>
>原田@福岡です。
>
>pdftotext.exeがpathの通っているところにあったら、他に設定する
>最初のMLで、pdfも全文検索の対象に加えたいとありましたので
>他の、word・powerpoint・excelとかはうまく出来て(動いて)いるのですよ
ね。
その通りです。
うまく処理できていると思います。


>どのような状況で、pdfファイルの日本語文書の検索ができないという事なのか
>MLに参加している皆さんも判断できる材料がないのではないでしょうか?
>
>インデックス作成中に対象外となるとか、無視されているとか
>NMZ_errlogとかの情報を提示されたほうが良いのではないでしょうか?
承知しました。情報不足で申し訳ありません。

エラーは発生していません。mknmzはpdfを対象にし、正常終了しています。


本文中に、「議事録」、「GM」という単語を含んだg.pdfというファイルがあったと
します。これをmknmazし、それぞれの単語を検索すると、

議事録は
------------------------------------------------
参考ヒット数: [ 議事録: 0 ] 

検索式にマッチする文書はありませんでした。
------------------------------------------------
となり、

GMは、
------------------------------------------------
参考ヒット数: [ GM: 1 ] 

検索式にマッチする 1 個の文書が見つかりました。

1. G.pdf (スコア: 2) 
      著者: 不明 
      日付: Wed, 25 Oct 2000 21:17:00 
      1/2 GM GM 2000/10/25( ) 13:10 16:30 2000/10/25 ( ) / 10 11 12 (2 ) 11/20 
10/30 11/24 12/20 11/10 12/12~14 12/16or17 20 5 / 80
      20 / / ( ) 2~3 / 2 10ms ( ) 11/17 ( ) v990107 001025.doc 2/2 25um ( ) / 
      /d|/b/G.pdf (113,119 bytes)
------------------------------------------------

という結果をかえしてきます。
他の単語で試しても、ほぼ同じです。

これらのことから、日本語の処理がうまくいっていないのではないか、と思ったの
です。

ちなみに、acrobatのバージョンは4.0です。

よろしくおねがいします。