namazu-ml(avocado)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
pnamazu-98.05.14
- From: Rei FURUKAWA <furukawa@xxxxxxxxxxxxxxxx>
- Date: Thu, 14 May 1998 21:25:05 +0900
- X-ml-name: namazu
- X-mail-count: 00614
古川です。
perl 版の検索クライアントを別便にて高林さんに送ります。
といっても、今回は、検索クライアント本体には、仕様上の変更点はありません。
perl 版わかち書きスクリプトを作ってみました。
# 1. おそらくバグがあります。
# 2. 私の身のまわりの、ごく限られたデータしかテストしていません。
# 3. エラー処理の類は、充実していません。
# 履歴
# '+': 新規仕様
# '?': 試験的仕様
# '-': 仕様の削除
# '*': 本体以外の仕様
# '!': 修正
# 98.05.14
# * サブルーチンを流用して、わかち書きスクリプト (wakati.pl) および、
# そのためのデータベース作成スクリプト (wktndx.pl) を作った
# ! wsearch.pl の中で unsignedcmp を使っていたが、ここでの比較は、
# 1 バイト文字同士または 2 バイト文字同士だから、実は単純な cmp
# でよいのではないか、と思い、unsignedcmp を使わないようにした
# これで問題なければ、ちょっと速くなるかも
perl wktndx.pl kakasidict
とやると、WKT.d および WKT.di というファイルができます。そして、
perl wakati.pl < filename
とか
perl wakati.pl filename
とかすると、わかち書き出力が得られます。
遅いです。
出力そのものは、'kakasi -w' と同一ではないですが、「わかち書き」という
目的は満たしていると思います。
辞書としては、
/^よみ[a-z]?[,\s]*(\/?単語)+ 品詞情報/
で表現できるものに対応したつもりです。(いいかげんですが)
私のところでは、kakasidict と pubdic.p は試してみましたが、なんとなく
動いているようです。
>> On Wed, 13 May 1998 19:45:31 +0900, Satoru Takabayashi <ccsatoru@xxxxxxxxxxxxxxxxxx> said:
> P.S. 2
> 手元では pnamazu の NMZ.s, NMZ.si を読めるようになりました。次の
> 1.1.3 では中間一致検索のサポートをするつもりでいます。
私のスクリプトはコメントが無くて、読みにくかったでしょう。ごめんなさい。
> # 始めから全部 Perl で書けば良かったかななんて今頃思ったりして…。
まあ、私のは、仕様検討のための実験試作という位置付けで…
>> On Thu, 14 May 1998 10:25:22 +0900, Kaz SHiMZ <kshimz@xxxxxxxxx> said:
> OS/2 や Win32 だと Perl の起動に時間がかかるので、C 言語版も継続して
> サポートしてくださいませ m(__)m
> # tknamazu の動作解析のため、Win32 環境の namazu も導入したのですが、
> # Win32 の Perl の起動時間は OS/2 の数倍... 何かチューニング tips は
> # ありますか?
私は、「自分が使わないで、誰が使うんだ」という考えにより、
# ほんとに、誰か使っている人はいるのだろうか?
自分では perl 版を使っているのですが、動作の機敏さで C 言語版と比べると、
なんとなく、のんびり動いているように感じます。
--
ヤマハ(株)ピアノプレーヤ設計課
古川 令
furukawa@xxxxxxxxxxxxxxxx