namazu-dev(ring)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: wish list (...low priority)



 Date: Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx>
 From: [namazu-dev 1227] Re: wish list (...low priority)
 Subject: Mon, 17 Jan 2000 19:20:23 +0900

 > >> 1. 要約部分を、mknmz 本体から Text::Summary のような別ルーチン(名
 > >> 前は適当ですが) に追い出すようなことは可能でしょうか?
 > >  ふと CPAN を調べてみると、HTML::Summary なんていうのはあるようですね。
 > >日本語もきちんと扱えるかどうかは不明ですけど...

日本語の要約は、欧米語の要約とは本質的に異なる部分が多いとおもいま
すから、Text::Summary-ja みたいなローカル色の強いものにならないと、
実用的な意味はあまりないとおもいます。そこは日本語ならではの漢字コー
ドの問題と同じに、割りきって良いんじゃないでしょうか。

もちろん、英語版には HTML::Summary を用いるようにするとかは(使える
ものなら、ね)、アリだとはおもいます。


 > 要約部分をモジュール化するのはちと面倒そうです。 mknmz の設
 > 計はどろどろした手続き型なので、これをオブジェクト指向風にすっ
 > きり分割するのはかなり手間がかかる気がします。再実装した方が
 > 早そう。

うん、まあ、そうなんです。手元でちょっと make_summary() を抜き出せ
るかなあと試してみて、あっさり挫折したものですから。X-) これはお願
いする方が早いかな、と。

要約というのは、自然言語の知識がすごく必要になってくる部分ですが、
その過程においてはある程度 ad hoc なやり方も含めざるを得ませんから、
インデクサ本来のコードとは相容れないものがあるんじゃないかとはおもっ
ています。そういう意味もあって、2.0 に向けて、分離できるものならやっ
ておくのがスマートではないでしょうか、ということですね。

ま、あくまで wish list で、可能であれば是非、という程度のものです。
--
馬場  肇 ( Hajime BABA )            E-mail: baba@xxxxxxxxxxxxxxxxxxxxxx
京都大学理学部宇宙物理学教室 博士後期課程
--