namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

pnamazu-98.05.14



古川です。

perl 版の検索クライアントを別便にて高林さんに送ります。

といっても、今回は、検索クライアント本体には、仕様上の変更点はありません。

perl 版わかち書きスクリプトを作ってみました。


# 1. おそらくバグがあります。
# 2. 私の身のまわりの、ごく限られたデータしかテストしていません。
# 3. エラー処理の類は、充実していません。

# 履歴 
#       '+': 新規仕様
#       '?': 試験的仕様
#       '-': 仕様の削除
#       '*': 本体以外の仕様
#       '!': 修正
# 98.05.14
#   * サブルーチンを流用して、わかち書きスクリプト (wakati.pl) および、
#     そのためのデータベース作成スクリプト (wktndx.pl) を作った
#   ! wsearch.pl の中で unsignedcmp を使っていたが、ここでの比較は、
#     1 バイト文字同士または 2 バイト文字同士だから、実は単純な cmp
#     でよいのではないか、と思い、unsignedcmp を使わないようにした
#     これで問題なければ、ちょっと速くなるかも


perl wktndx.pl kakasidict

とやると、WKT.d および WKT.di というファイルができます。そして、

perl wakati.pl < filename

とか

perl wakati.pl filename

とかすると、わかち書き出力が得られます。

遅いです。

出力そのものは、'kakasi -w' と同一ではないですが、「わかち書き」という
目的は満たしていると思います。

辞書としては、

    /^よみ[a-z]?[,\s]*(\/?単語)+ 品詞情報/

で表現できるものに対応したつもりです。(いいかげんですが)

私のところでは、kakasidict と pubdic.p は試してみましたが、なんとなく
動いているようです。


>> On Wed, 13 May 1998 19:45:31 +0900, Satoru Takabayashi <ccsatoru@xxxxxxxxxxxxxxxxxx> said:
  > P.S. 2
  > 手元では pnamazu の NMZ.s, NMZ.si を読めるようになりました。次の 
  > 1.1.3 では中間一致検索のサポートをするつもりでいます。

私のスクリプトはコメントが無くて、読みにくかったでしょう。ごめんなさい。


  > # 始めから全部 Perl で書けば良かったかななんて今頃思ったりして…。

まあ、私のは、仕様検討のための実験試作という位置付けで…



>> On Thu, 14 May 1998 10:25:22 +0900, Kaz SHiMZ <kshimz@xxxxxxxxx> said:
  > OS/2 や Win32 だと Perl の起動に時間がかかるので、C 言語版も継続して
  > サポートしてくださいませ m(__)m
  > # tknamazu の動作解析のため、Win32 環境の namazu も導入したのですが、
  > # Win32 の Perl の起動時間は OS/2 の数倍... 何かチューニング tips は
  > # ありますか?


私は、「自分が使わないで、誰が使うんだ」という考えにより、

# ほんとに、誰か使っている人はいるのだろうか?

自分では perl 版を使っているのですが、動作の機敏さで C 言語版と比べると、
なんとなく、のんびり動いているように感じます。


-- 

                                        ヤマハ(株)ピアノプレーヤ設計課
                                                              古川 令
                                             furukawa@xxxxxxxxxxxxxxxx