Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

HTML ファイルで分野ごとに複合キーワード検索を行うには



鹿児島大学 医学部附属病院 医療情報部の村永と申します。
このMLに始めて投稿いたします。

 本院のイントラネットでは、医薬品添付文書をHTML化し、namazu
による全文検索を行えるようにしております。
医薬品添付文書のHTMLファイルは、このメールの最後に示すような
構造になっております。
#このようなファイルが約2万件ほど登録されています。

現在は、1つのキーワードで文書全体を検索しており、検索速度は
充分なのですが、あまりに多くの文書がヒットするため、今ひとつ
使い勝手がよくありません。
#もちろん、kakashiの辞書には医学用語を登録しております。
#多くの文書がヒットするのは、薬品名、相互作用、副作用等
#が一度に検索対象となるからです。

そこで、「一般名=○○」かつ「禁忌=○○○」のようにカテゴリ毎
にキーワードを指定して検索できるようにしたいと考えております。

ソフトバンクのnamazuの解説書を読んでみると、namazuは複合インデッ
クスの検索に対応しており、複合検索を実現するには、文書内のカテゴ
リ毎に、別々のインデックスを作成したら良いように思えました。
しかし、現在のmknmzで、1つのHTML内にあるタグを認識して
別々のインデックスを作成する機能を見つけることが出来ませんでした。
#現在利用しているバージョンはnamazu-2.0.6です。

カテゴリ毎に付けてある「<a name="k100">」等のタグごとに、別々の
インデックスを作成することは可能なのでしょうか。教えて下さい。
それとも、何か良い方法があるのでしょうか。

#各分野ごとに分けて、本文にリンクしているようなHTMLファイルを
#別途準備したら実現できそうですが、現在でもファイル数が2万件
#ほどあり、あまりファイルを増やしたくないのと、ユーザの操作も
#複雑になるようなので、現在はまだ実施していません。

以下にHTMLファイルの例(抜粋)を示します。
(実際のHTMLファイルの日本語はEUCです)
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
<html>
<head>
<title>DI Information [00001]</title>
</head>
<body>
<pre>
<A name="k100">◆◆◆◆◆◆《商品名》◆◆◆◆◆
○○錠(2mg)
</A>
<A name="k200">◆◆◆◆◆◆《一般名》◆◆◆◆◆
塩酸○○○○○○,JAN
</A>
<A name="k300">◆◆◆◆◆◆《会社名》◆◆◆◆◆
販:○○薬品工業
製:日本○○○○○○
</A>
<A name="k400">◆◆◆◆◆◆《禁忌》◆◆◆◆◆
禁忌(次の患者には投与しないこと)
1.緑内障の患者[抗コリン作用により症状を増悪させるおそれがある。]
2.本剤の成分に対し過敏症の既往歴のある患者
3.重症筋無力症の患者[抗コリン作用により症状を増悪させるおそれがある。]
</A>
<A name="k500">◆◆◆◆◆◆《効能効果》◆◆◆◆◆

・・・・・・・・・・
</A>

</pre></body></html>

----
村永文学
鹿児島大学医学部附属病院 医療情報部
Fuminori Muranaga , Medical Informatics
TEL 099-275-5171 , FAX 099-275-5177