namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: KAKASI & Chasen



"Michihiro Ueno" <x_sykif21@xxxxxxxxxxxxxx> wrote:

>(1) 皆さん、分かち書きの部分はKAKASIとChasenのどちらを使われているの
>       でしょうか? シェアはどれくらいなのでしょうか?

私は KAKASI を主に使っています。わかち書きさせるだけならば KAKASI 
と ChaSen はそれほど精度が違わないと思うからです。


>(2) NAMAZUとChasenとの相性は、どうなんでしょうか?

普通にわかち書きさせるだけなら相性は悪くないと思います。ただ、品詞
情報を利用した単語の登録は微妙な問題があります。

manual.html#MORPH 参照のこと。


>(3) (2)の質問で、私が特に気にしていることなのですが、
>       KAKASIでおこなっていたNAMAZUのインデックス作成処理より
>      
>当然、Chasenの方がインデックス作成処理速度が遅くなるとは思うのですが、
>      
>namazu.cgiの実行速度は、インデックスファイルの増加分の付加処理の増加と
>       考えてよろしいのでしょうか?

namazu.cgi の実行速度はインデックスのサイズにあまり左右されないよ
うになっています。 KAKASI と ChaSen で作ったインデックスのどちらの
方が検索が速く行えるということはないです。


>(4)  これは、NAMAZUではなくて、KAKASIの問題なのですが、
>        KAKASIのkakasudict_940620ファイルに文字を追加したいのですが
>       
>単にエディタで、このファイルに文字を追加しても、構わないのでしょうか?
>        ファイルに何か処理しないとダメなのでしょうか?

mkkanwa というプログラムが kakasi と一緒に作成されているのでテキス
トファイルを修正した後にこれを使って kanwadict に変換してそれを 
/usr/local/lib/kakasi あたりにコピーすればよいと思います。


>(5)  もしも宜しければ、NAMAZUの複数のデータベース作成について
>        詳しく教えていただきたいです。

普通にインデックスを作ってそれらを Makefile の INDEXDIR で指定した
ディレクトリの下に集めておきます。 Namazu のインデックスはひとつの
ディレクトリにひとつしか置けないという仕様になっていますから、 
foo, bar, baz と3つのインデックスを使いたい場合は下のようなディレ
クトリ構成になります。

/usr/
  + local/
      + namazu/
          + index/
              + foo/
              + bar/
              + baz/

また、複数のインデックスに検索をかけたときのメッセージ用に 
INDEXDIR には NMZ.head, NMZ.foo, NMZ.body, NMZ.msg といったファイ
ルを置いておく必要があります。


>         DG/UX ( OS )

この OS の名前は聞いたことがないです。もしよければ uname -a の結果
を教えて頂けませんか。

# もしかしたら Digital UNIX かな? それなら 64bit OS ですよね :-)

--
高林 哲 Satoru Takabayashi