namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Phrase search (Re: [Q] OpenText Style?)



Kenji Suzuki <kenji@xxxxxxxxxxxxxxxx> wrote:

>> で、いまのところインデックスの追加は考慮していません (これが面倒な
>> んだな)。今日の夜くらいには proto として Webにおけると思います。こ
>> の実装は単純なので気に入っています :-)。
>
>楽しそうですね〜.インデックスの追加自体は,現状の仕組みでは,
>更新ページが反映されないので,価値が低いです.

とりあえず動いているものを

<URL:http://saturn.aichi-u.ac.jp/%7Eccsatoru/Namazu/proto/>

に namazu-1.2.0-proto-4.tar.gz として置いておきます。勇気のある方
はお試しください ;-)。

ただし、現在の版だとインデックスを作るときに ON_MEMORY_MAX を越え
て、mknmz の中でスワップが起こるような処理には対応していません。こ
れは

>> で、いまのところインデックスの追加は考慮していません (これが面倒な
>> んだな)。

という事情によります。


>あと namazu は検索速度が速いのが気に入っていますので,今回の
>あやしげな実装は速度的には有利だと思いますので,非常に楽しみ
>です.

確かにこのあやしげな実装はほとんどコストを無視できるくらいに軽いで
す。手元では ThinkGNU のテキストをインデックスして実験していますが、

    [Base]
    Date: Thu May 28 17:56:43 1998
    Files: 27 files
    Size: 744,086 bytes
    Keywords: 20,524 words
    Wakati: /usr/local/bin/kakasi -ieuc -oeuc -Ea -w
    Time: 159 sec.
    
というソースに対して

     13475 May 28 17:56 NMZ.f
       108 May 28 17:56 NMZ.fi
    262148 May 28 17:56 NMZ.h
    665648 May 28 17:56 NMZ.i
     82096 May 28 17:56 NMZ.ii
    484624 May 28 17:56 NMZ.p
    262144 May 28 17:56 NMZ.pi
      1191 May 28 17:56 NMZ.r

くらいのインデックスができています。 NMZ.p と NMZ.pi がフレーズ用
のインデックスです。記号を含む単語は無視するといった処理を一切行っ
ていない割にはサイズはそれほど大きくないと思います。精度の方も十分
使えるレヴェルだと感じています。


>手許のベンチ・マークでは,namazu の方が freya より 4倍ほど高
>速です.

Namazuの方が断然単純ですからね ;-)。

--
高林 哲 Satoru Takabayashi