Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: ChaSen を使うと title タグ内が無視されてしまう



野首 様

レスを頂いたのに回答が遅くなって申し訳ありません。山田です。
# 時間が空いてしまったので、環境を除いた全文を引用させていただきます。

<!-- NOKUBI Takatsugu様のE-mail(01.11.6 6:37 PM)からの引用 -->

> <B80A8381.8AE9%hamu69@xxxxxxxxxx>の記事において
> hamu69@xxxxxxxxxxさんは書きました。
> 
>>> 私の環境ではmknmz時にChaSenをわかち書きに使った場合、html文書中の
>>> <title></title>で囲まれている部分が、そっくりそのままインデックス
>>> に反映されません。KAKASIを使うとスコアも正しく表示され、正常にイン
>>> デックスが作られるので、ChaSenかText-ChaSenのinstallに失敗している
>>> だけの様な気がするのですが、どこが悪いのかちょっと検討がつきません。
>>> ご教授のほどよろしくお願いいたします。
>>> 
>>> わかち書きにChaSenを使った場合の具体的症状
>>>  ・タイトルと本文中に含まれているキーワードで検索しても、スコアの
>>>   値は本文中のキーワード分しか示さない。
>>>  ・タイトル中にだけそのキーワードが存在する文章はヒットしない。
>>>  ・要約は正常に作られている。
>>> 
>>> インストールした時の手順が下記URLに覚え書きしてあります。
>>>   http://www.junlab.com/namazu.html
> 
> ChaSen が HTML に特化した処理について影響するという事態はちょっと考
> えられません。
> NMZ.w に該当する単語(もしくはその一部)は本当に記録されていませんでしょ
> うか?

やっと時間が作れましたので、ChasenとKakasiでmknmz時の環境を同じにした
インデックスを作って確認してみました。NMZ.wの中身についてはChasenを使
用した場合でもきちんと記録されていましたが、検索をかけてみるとやっぱり
titleタグ中がすっぽり抜け落ちてしまいます。

下記のURLは同じひとつの文章でタイトル中にも含まれる言葉、「手順」で検
索をしてみたものです。タイトルにその検索対象が含まれている場合に示すは
ずのスコア値分だけ差が生じています。

http://www.junlab.com/tmp/chasen/namazu.cgi?query=%8E%E8%8F%87&whence=0&max=
20&result=normal&sort=score

http://www.junlab.com/tmp/kakasi/namazu.cgi?query=%8E%E8%8F%87&whence=0&max=
20&result=normal&sort=score

レンタルサーバーの自分の領域に--prefixオプションでインストールしている
ので、その際の失敗による可能性もあると思いますがよろしくご教授下さい。


~~~~ Jun Yamada ~~~~~~~~~~~~~~~~
  E-mail hamu69@xxxxxxxxxx
  URL http://www.junlab.com/
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~