Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Nikkei Linux/2000.6
- From: Rei FURUKAWA <furukawa@xxxxxxxxxxxx>
- Date: Sat, 20 May 2000 09:51:06 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 00496
古川です。
日経 Linux の 2000.6 月号の "Linux Report" というコーナー (p14) に、
日本語検索ソフト「Namazu2.0.4」が公開
Word や Excel, PDF ファイルからも検索可能
という記事があります。これを読んでみると…
"ただし、Namazu のホームページには「全文検索システム」とあるが、
実際には単なるインデックス検索ソフトである"
うーむ。そういうもんなんでしょうか…
"現在の特に商用ソフトでは、例えば「東京都」に対して「京都」で
も検索できるような grep と同等の検索結果が得られるアルゴリズム
を用いている場合が多く、単に形態素解析機能を備えているだけでは
全文検索ソフトとは言えないようになっている。"
「京都」でヒットしないのは、それがデフォルトになっているだけで、
方法は用意されているんだけど… (中間一致とか)
# もっとも、現在の namazu は、中間一致とわかち書きが両立しないので、
# 制限が無いわけではありませんが。
それに、現在もなにも、昔から「形態素解析機能を備えている」かどうか
と、全文検索であるかどうか、あまり関係ないと思っていましたが…
"「平河町」が「平」「河」「町」となってしまうのは KAKASI が持つ
辞書に「平河町」が登録されていないからである。"
手もとで試してみると、確かに「平河町」は無いけど、「平河」はあるので
「平河」「町」になるはずだと思うんだけど…
"また、形態素解析時に分割して検索できない。上の例では、「京都」
を検索しても見つからないし、「平河町」もヒットしない"
「京都」はともかく、「平河町」は見つかるはずだと思うんだけど…
--
Rei FURUKAWA
furukawa@xxxxxxxxxxxx