Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: インデックス作成時のPDF文字化けについて
寺西です。
# HTML メールはやめましょう。
takako hirasawa wrote:
>
> >1. PDF だけが文字化けする。また、文字化けは日本語部分である。
> >2. PDF のファイル名は日本語ではない。
> >3. pdftotext を使っている。
...
> 3に関してはサーバーに問い合わせをしないとわかりませんが・・
> これは問い合わせをして答えて頂ける性質のものなのでしょうか?
事情がよく分かりませんが、Web サーバはレンタルサーバか何かなので
しょうか?
もし、レンタルサーバで、Namazu が使えるということを宣伝している
のなら、「PDF 検索で文字化けする」と、レンタルサーバにまずは
問い合わせするべきでしょう。
# むしろ、メーリングリストに問い合わせするべき話ではないような...。
> それから、書き忘れましがPDFの文字化けは一部分なのですが(全て文字化け
> する訳ではないという現象です)正常にテキスト化されて検索可能なPDFファイル
> もあります。その場合もpdftotextに関係していますか?
エンコードが不適切だとありえるかもしれません。
また、OS が Windows 系だと、SJIS, EUC の変換辺りの問題かもしれません。
いづれにしろ、検索できない問題は、文字化けする問題によって起こって
いるのか、そうではないのかを確かめる必要があるかもしれません。
問題の PDFだけを問題のサーバで mknmz して、NMZ.w の中身を確認
してみましょう。
> いずれこちらで原因をある程度分かった上でサーバーに問い合わせたいと考えていま
> す。
逆だと思います。Namazu をインストールした、サーバ管理者に問い合わせ
するのが先かと。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E