Namazu-win32-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: pdf の全文検索の設定方法
佐藤@大和鑑定です。
Hiroshi ADACHI <adachi@xxxxxxxxxxxxxxxxxxxxxx> wrote:
> 情報のご提供ありがとうございました。
> 早速やってみました。
> しかし残念ながら、従来と同様、インデックスは出来ますがやはり日本語の検索は出
> 来ないようです。(英数字は出来ます)
OSの違いが関係しているかもしれませんので、NTで試してみました。
日本語PDF を正常に処理できています。
なお、フィルタ pdf.pl は以下のどちらでも正常に動作するようです。
system("$pdfconvpath -q -eucjp $tmpfile $tmpfile2");
system("$pdfconvpath -q $tmpfile $tmpfile2");
【環境】
・Windows NT 4.0 Workstation (SP5)
・namazu 2.0.5
・kakasi 2.3.2
・ActivePerl 5.6.0.620
・AN HTTPD 1.32f
・pdftotext 0.92(xpdf-0.92-win32-ms.zip)
・gzip 1.2.4
・Acrobat Reader 4.05J(4.0 0421)
【DOSプロンプトで set した結果:抜粋】
全てデフォルトのインストールなので特殊なことは何もしていません。
----------------------------------------------------------------------
ComSpec=C:\WINNT40\system32\cmd.exe
HOME=C:\namazu
HOMEDRIVE=C:
HOMEPATH=\
ITAIJIDICTPATH=C:\kakasi\share\kakasi\itaijidict
KANWADICTPATH=C:\kakasi\share\kakasi\kanwadict
LANG=ja_JP.SJIS
MKNMZRC=C:\namazu\etc\namazu\mknmzrc
NAMAZULOCALEDIR=C:\namazu\share\locale
NAMAZURC=C:\namazu\etc\namazu\namazurc
Path=C:\namazu\bin;C:\Perl\bin;C:\WINNT40\system32;C:\WINNT40;
PROMPT=$P$G
SystemDrive=C:
SystemRoot=C:\WINNT40
TEMP=C:\TEMP
TMP=C:\TEMP
windir=C:\WINNT40
----------------------------------------------------------------------
【使用したPDF】
石井さんのPostgreSQL本(通称:シーラカンス本(^^;)
http://www.sra.co.jp/people/t-ishii/PostgreSQL/postbook/
> 佐藤さんの環境では、日本語の検索が出来ているんですよね。
> どこが違うのだろう。
はい、Windows98SEとNT4.0ともに日本語の要約が表示されます。
一度上記のPDFで試してみてはいかがでしょうか?
> xpdfのソースをダウンロードしてINSTALLファイルをよんでみたのですが、これによる
> と、日本語のとおるpdftotext.exeは、以下のオプションを付けてconfigureスクリプ
> トをはしらせろと書いてあるようです。ただし、これはUNIXシステムについての説明
> で、Winについては同様の記述はありません。
> 私、UNIXは殆ど知らないのですが、configureとはコンパイルしてexeを作り直すこと
> でしょうか。
> 佐藤さんが日本語検索が出来ているとすると、Winはこの機能を含ませて実行ファイル
> が作られているのでしょうか。
pdftotext は xpdf-0.92-win32-ms.zip をそのまま利用しているのでコンパイル
などは行っていません。ドキュメントは軽く読んだだけですが、このオプション
を付けて作られているのではないでしょうか。
上手くいかないPDFをコマンドレベルで変換したらどうなりますか?
この場合EUCに変換されるので、私は以下のエディタを利用しています。
TeraPad Ver 0.61
http://www2s.biglobe.ne.jp/~t-susumu/toclip/
> 私の環境は以下の通りです。NTとAcrobat(readerではない)だけ異なります。
そうですね。今回はNTなのでAcrobatのみの違いとなりますが…
あとは全てのインデックスを削除して、作り直してみるくらいしか
思い浮かびません。
PDF が検索できると便利なのでがんばってくださいね。
大和不動産鑑定株式会社
情報システム部
佐藤 充男
satou@xxxxxxxxxxxxxxxxx
http://www.daiwakantei.co.jp/