namazu-dev(ring)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: wish list (...low priority)
Date: Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx>
From: [namazu-dev 1227] Re: wish list (...low priority)
Subject: Mon, 17 Jan 2000 19:20:23 +0900
> >> 1. 要約部分を、mknmz 本体から Text::Summary のような別ルーチン(名
> >> 前は適当ですが) に追い出すようなことは可能でしょうか?
> > ふと CPAN を調べてみると、HTML::Summary なんていうのはあるようですね。
> >日本語もきちんと扱えるかどうかは不明ですけど...
日本語の要約は、欧米語の要約とは本質的に異なる部分が多いとおもいま
すから、Text::Summary-ja みたいなローカル色の強いものにならないと、
実用的な意味はあまりないとおもいます。そこは日本語ならではの漢字コー
ドの問題と同じに、割りきって良いんじゃないでしょうか。
もちろん、英語版には HTML::Summary を用いるようにするとかは(使える
ものなら、ね)、アリだとはおもいます。
> 要約部分をモジュール化するのはちと面倒そうです。 mknmz の設
> 計はどろどろした手続き型なので、これをオブジェクト指向風にすっ
> きり分割するのはかなり手間がかかる気がします。再実装した方が
> 早そう。
うん、まあ、そうなんです。手元でちょっと make_summary() を抜き出せ
るかなあと試してみて、あっさり挫折したものですから。X-) これはお願
いする方が早いかな、と。
要約というのは、自然言語の知識がすごく必要になってくる部分ですが、
その過程においてはある程度 ad hoc なやり方も含めざるを得ませんから、
インデクサ本来のコードとは相容れないものがあるんじゃないかとはおもっ
ています。そういう意味もあって、2.0 に向けて、分離できるものならやっ
ておくのがスマートではないでしょうか、ということですね。
ま、あくまで wish list で、可能であれば是非、という程度のものです。
--
馬場 肇 ( Hajime BABA ) E-mail: baba@xxxxxxxxxxxxxxxxxxxxxx
京都大学理学部宇宙物理学教室 博士後期課程
--