namazu-ml(ring)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
 Re: Non wakatigaki
- From: Rei FURUKAWA <furukawa@xxxxxxxxxxxxxxxx>
 
- Date: Wed, 19 May 1999 12:30:52 +0900 (JST)
 
古川です。
>> On Thu, 13 May 1999 13:05:08 +0900, Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx> said:
  >> (1) -i というオプションをつけると、内蔵の簡易わかち書きルーチンを
  >> 使います。
  > これはどの程度、使いものになるのでしょう? そこそこ使えるよう
  > なら取り込みたいと思います。どなたか調査してくださいません?
avocado の spool を素材に、実験してみました。
[速度]
    kakasi を呼ぶよりは速い (module は試していません)
    kakasi を呼ぶ場合
        [Base]
        Date: Tue May 18 00:17:50 1999
        Added Files: 1,960 files
        Total Files: 1,960 files
        Size: 4,942,282 bytes
        Added Keywords: 57,079 words
        Total Keywords: 57,079 words
        Wakati: /usr/local/bin/kakasi -ieuc -oeuc -w
        ARGV: '-ahus' '/usr/home/furukawa/avocado/spool'
        Perl Version: 5.00502
        Namazu Version: 1.4.0.0-beta-8
        System: freebsd
        Time: 645 sec.
    内蔵簡易ルーチン
        [Base]
        Date: Tue May 18 00:05:19 1999
        Added Files: 1,960 files
        Total Files: 1,960 files
        Size: 4,942,282 bytes
        Added Keywords: 40,206 words
        Total Keywords: 40,206 words
        Wakati: /usr/local/bin/kakasi -ieuc -oeuc -w
        ARGV: '-ahius' '/usr/home/furukawa/avocado/spool'
        Perl Version: 5.00502
        Namazu Version: 1.4.0.0-beta-8
        System: freebsd
        Time: 343 sec.
[サイズ]
    サイズに差が出るのは、次のものです。
             kakasi     内蔵簡易ルーチン
    NMZ.ii   228316               160824
    NMZ.i   1959564              1594627
    NMZ.p    695358               309322
    NMZ.w     82045               605762
[精度]
    普通に kakasi を呼んだ場合、NMZ.w に登録される、2 文字以上の漢字語
    は、3398 でした。これらの語について、
        kakasi を使ったデータベースではヒットしないが
        内蔵簡易ルーチンを使うとヒットする
    ケースを調べ、さらに、grep して、誤ヒットを抜き出しました。
    # なぜ、ここで grep したかというと、
    # 例えば、「文書」を検索した場合に、「全文書」という語が含まれる
    # ファイルは、kakasi を呼んだデータベースではヒットしませんが
    # 簡易ルーチンを使ったものではヒットします。
    # しかし、これを「誤ヒット」と呼ぶのは、ちょっと違う
    # (少なくとも、ハッシュの衝突によるものとは区別すべき)
    # と思ったからです。
    [結果]
        95 語にて、誤ヒットが起きた (95/3398 = 2.8%)
        それら 95 語については、平均して
        17.4 ファイルがヒットし、そのうち 1.8 が誤ヒットであった
    ただし、mailing list のように、1 つのファイルが、比較的小さい
    場合はいいですが、大きなファイルを扱うケースでは、ミスヒットの
    割合が増えるはずです。
    [参考]
        -K オプション (記号を削除) と併用すると、
        誤ヒット: 73 語 (73/3398 = 2.1%)
        誤ヒット時: 22.6 ファイルがヒットし、そのうち 2.0 が誤ヒット
        と、なりました。
これをどう評価するか、ですが、私は「使いものになる」と考えています。
あとは、ひらがなが登録されないことを、よしとするか、ですね。
# 最終判断は、もちろんお任せします。
-- 
                                        ヤマハ(株)ピアノプレーヤ設計課
                                                              古川 令
                                             furukawa@xxxxxxxxxxxxxxxx