namazu-ml(ring)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: plan for Namazu v2.0
古川です。
From: Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx>
Date: Tue, 04 May 1999 22:11:51 +0900
satoru-t> 現在、考えている案は次の通りです。足りない点があれば提案して
satoru-t> * 文書読み込み部の抽象化 (APIを定義し、拡張性を高める)
satoru-t> - 新しい文書形式への対応を容易にする
satoru-t> e.g. Word文書, PDF, http://, ftp://, news://
ちょっと前に話題になった、pdf2txt ですが、完成度がかなり上がり、試した
かぎりでは、実用的に、ほとんど問題ない出力が得られるようになっています。
みなさまお試しを。
ftp://paprika.noc.intec.co.jp/pub/person/ishida/freeware/pdf2txt/
satoru-t> * NMZ.f のフォーマットを変更し、 NMZ.field.* と統合する
satoru-t> - 現在のフォーマットは柔軟性ゼロな上にサイズ効率が悪い
ローカルファイルについては、要約を、検索側でつくる「こともできる」よう
になっているといいな、と思います。小さいファイルがたくさんあるような状
況では、NMZ.f が、ファイルを二重に持っているのに近いサイズになってしま
うためです。
速度を重視したい人 -> NMZ.f 内に要約
サイズを重視したい人 -> 検索時に要約作成
てな感じで。もちろん、mknmz で行なっているような、複雑な処理は要らない
と思います。
satoru-t> - 中間・後方一致、正規表現、フィールド指定での検索を抑制
個人的に、いちばん実装して欲しいのは、「部分一致と、わかち書きの両立」
なんですが、
satoru-t> 先日、とある方と suffix array の考え方を応用できないものかと
satoru-t> 話し合いました。うまくいけば、わかち書きに依存しない形の全文
satoru-t> 検索システムが作れるかもしれません。当分、先の話ですが。
これがうまくいけば、関係なくなりそうです。
From: Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx>
Date: Wed, 05 May 1999 10:47:11 +0900
satoru-t> masao@xxxxxxxxxx (Masao Takaku) wrote:
satoru-t> > * 日付をキーにしたless than, greater thanの指定検索。
satoru-t> > ( 1999年1月以降の記事 OR 1998年1月以前の記事 AND "TERM" )
satoru-t> > といった検索をしたい。
satoru-t>
satoru-t> この場合、どのような形式で日付を指定するかが問題になると思う
satoru-t> んだけど、ISO 8601に従えば間違いないですね。 1999-05-05 のよ
satoru-t> うに。
実は、pnamazu では、もう実装していて、現在デバッグ & cache 対応中なの
です。仕様が決まったら、それに合わせようかと思うので、教えてください。
ちなみに、こちらでは、YYYY.MM.DD というのを考えていました。というのは、
「日付指定には、ぜひ '+' '-' による相対指定をしたい」と思っていて、そう
すると、日付の区切りに '-' を使うと混乱するからです。
今のところ、pnamazu では、
+[1999.1.1,1999.1.15] 1999年1月1日〜1999年1月15日
+[1999.4,] 1999年4月以降
+[,1999.4] 1999年4月以前
+[.2.1] 直近の2月1日 (年は省略可)
+[-5,+.6] 今日の5年前から6ヶ月間
といった指定ができるようになる予定です。
namazu.cgi の機能としては、「日付の相対指定」を希望しておきます。
それと、
* ON_MEMORY_MAX, FILE_SIZE_LIMIT の自動設定
ができると、よいです。
% limit
cputime unlimited
filesize unlimited
datasize 22528 kbytes
stacksize 8192 kbytes
coredumpsize unlimited
memoryuse 30720 kbytes
descriptors 64
memorylocked 10240 kbytes
maxproc 64
などといった状況から、適切な値を推定してもらえると、ありがたいのですが…
--
Rei FURUKAWA
furukawa@xxxxxxxxxxxx