Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [namazu-users-ja] 「海」で検索すると文字化け



最初の質問者の山田です。

# 藤原様、CCありがとうございました。
# 先ほどこちらのMLに入ったので、話しが飛んでしまうかもしれませんが
# 回答させていただきます。

<!-- 藤原  誠/ Makoto Fujiwara様のE-mail(01.7.3 8:34 AM)からの引用 -->

> 素朴な疑問なのですが、元の質問を良く読むと、
> 「海」で検索していて、
> 「実は最近このようなIT講習の際の」
> というような文章がそれに対して見つかっていると理解していますが、
> この対象になっている(見つかった)文章には、「海」という字は入っ
> ているのでしょうか。
> 
調べてみると、この文章中の下の方に「海」という単語がありました。
要約として保存されていない部分です。

> (中略)
>
> 1. mknmz の時に、本来は含まれていない 「海」という語を
> NMZ.w の中に生成してしまう
> (か、もしくは)
> NMZ.w には「海」はないのだけれど、namazu.cgi
> が、海もあると思ってしまうことがある。
> 
他の文書中にも海があるので NMZ.w に「海」は生成されていました。
問題の文書中に「海」があることを認識していること自体は正しいですが、
その後の作業で文字コードの誤認識(?)をおこして、htmlを吐き出して
いるような感じです。ただしこの時のスコアは正しい値のままです。

> 2. namazu.cgi の方で、見つかった語を強調する時に、
> 正しくない strong を入れてしまう
> 
文字化けをおこしている文章を調べてみると、「海」という単語が必ず
含まれています。私のサイト中では例外はありませんでした。

ですが、文字化けをおこした文書と同じ文章を含んでいて、しかも「海」
という単語を含んでいる文書でも、文字化けをおこさないものもあります。

下記のURLに資料をあげておきますので、よろしくお願いします。
http://www.junlab.com/cgi_bin/namazu/namazu.cgi?query=%8AC&whence=0
http://www.junlab.com/NMZ.field.summary.txt  #648KB
http://www.junlab.com/NMZ.w.txt  #144KB


~~~~ Jun Yamada ~~~~~~~~~~~~~~~~
  E-mail hamu69@xxxxxxxxxx
  URL http://www.junlab.com/
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~