Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: インデックス作成時のPDF文字化けについて



寺西です。

# HTML メールはやめましょう。

takako hirasawa wrote:
> 
> >1. PDF だけが文字化けする。また、文字化けは日本語部分である。
> >2. PDF のファイル名は日本語ではない。
> >3. pdftotext を使っている。
...
> 3に関してはサーバーに問い合わせをしないとわかりませんが・・
> これは問い合わせをして答えて頂ける性質のものなのでしょうか?

事情がよく分かりませんが、Web サーバはレンタルサーバか何かなので
しょうか?

もし、レンタルサーバで、Namazu が使えるということを宣伝している
のなら、「PDF 検索で文字化けする」と、レンタルサーバにまずは
問い合わせするべきでしょう。

# むしろ、メーリングリストに問い合わせするべき話ではないような...。

> それから、書き忘れましがPDFの文字化けは一部分なのですが(全て文字化け
> する訳ではないという現象です)正常にテキスト化されて検索可能なPDFファイル
> もあります。その場合もpdftotextに関係していますか?

エンコードが不適切だとありえるかもしれません。
また、OS が Windows 系だと、SJIS, EUC の変換辺りの問題かもしれません。

いづれにしろ、検索できない問題は、文字化けする問題によって起こって
いるのか、そうではないのかを確かめる必要があるかもしれません。

問題の PDFだけを問題のサーバで mknmz して、NMZ.w の中身を確認
してみましょう。

> いずれこちらで原因をある程度分かった上でサーバーに問い合わせたいと考えていま
> す。

逆だと思います。Namazu をインストールした、サーバ管理者に問い合わせ
するのが先かと。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E