Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: --html-split (namazu-bug#10)
- From: knok@xxxxxxxxxxxxx (NOKUBI Takatsugu)
- Date: Wed, 26 Apr 2000 14:45:52 JST
- X-ml-name: namazu-devel-ja
- X-mail-count: 00428
<20000426115838B.satoru-t@xxxxxxxxxxxxxxxxxx>の記事において
satoru-t@xxxxxxxxxxxxxxxxxxさんは書きました。
>> * ファイル? 文書?
>> - 現在はこれらの概念がごっちゃになっている
>> - 文書という概念に統一したい
>> - ファイルでないものを平等に扱いたい
これは私も以前から考えていました。LC2000 での発表でもそれっぽいこと
を少し話しましたが、
* INN 2.x の CNFS や PostgreSQL の large object などもインデックス対象
にしたい
という思いがまず個人的にありました。
そして、そのためには拡張子というファイルに固有のもの以外の手段でデー
タの種別を判別する必要があろう、ということで File::MMagic の実装をした
のですが... 今の段階ではあまり生かされてません。むしろ、処理速度の面で
足を引っぱっているかも。
ファイル以外のものを扱うためには、入力をより抽象化する必要があるだろ
うと思っています。そして、その枠組の上で
>> * --html-split について
>> - 汎用性のないオプション名である
>> - 他の形式の文書も分割したくなるだろう
>> - --doc-split にすればよかった
>> - 動的に分割するのが厄介である。処理が複雑すぎる
この辺りも処理すればスッキリすると思うのですが、いかがでしょう。
>> * 対象文書の選択について
>> - 現在は mknmz が対象文書を選択している
>> - 別のプログラムにした方がすっきりするのだが…
>> + select-target-documents | mknmz
これは良さそうですね。しかし、Win32 方面はこのあたりどうなんでしょう...
素の Windows (というか DOS?)の pipe はかなりインチキな実装(いったん
temporary に書き出してから次のプログラムに渡す)だったような記憶がある
のですが、cygwin なら大丈夫だったりするのでしょうか。それとも記憶違い?
<2000Apr26bt2xzeaq.kose@xxxxxxxxxxxxxxxxxx>の記事において
kose@xxxxxxxxxxxxxxxxxxさんは書きました。
>> Info 形式、Emacs の Rmail 形式、UNIX mbox 形式のようなものも
>> 分割して mknmz できると嬉しいな。Namazu はそういう --doc-split
>> モジュールを切り替え可能な切口が用意されているだけでいいと思う。
そうですね。
>> 「わかち書き」も filter として実装すると切り替え可能だし、
# 早く libsplitter を実装せねば... 連休中には作業しよう。
>> > これらの問題を解決するには思いきった書き直しが必要です。いつ
>> > になったらやる気が起きるかな…。
>>
>> mknmz 本体は骨組みだけの単純なものだといいかもしれません。
いっそのこと、index に使うデータ形式も pluggable にするとか ^^;
--
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx (private)
nokubi@xxxxxxxxx (official)