Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: --html-split (namazu-bug#10)



<20000426115838B.satoru-t@xxxxxxxxxxxxxxxxxx>の記事において
satoru-t@xxxxxxxxxxxxxxxxxxさんは書きました。

>>   * ファイル? 文書?
>>     - 現在はこれらの概念がごっちゃになっている
>>     - 文書という概念に統一したい 
>>     - ファイルでないものを平等に扱いたい

  これは私も以前から考えていました。LC2000 での発表でもそれっぽいこと
を少し話しましたが、

* INN 2.x の CNFS や PostgreSQL の large object などもインデックス対象
  にしたい

  という思いがまず個人的にありました。

  そして、そのためには拡張子というファイルに固有のもの以外の手段でデー
タの種別を判別する必要があろう、ということで File::MMagic の実装をした
のですが... 今の段階ではあまり生かされてません。むしろ、処理速度の面で
足を引っぱっているかも。

  ファイル以外のものを扱うためには、入力をより抽象化する必要があるだろ
うと思っています。そして、その枠組の上で

>>   * --html-split について
>>     - 汎用性のないオプション名である
>>     - 他の形式の文書も分割したくなるだろう
>>     - --doc-split にすればよかった
>>     - 動的に分割するのが厄介である。処理が複雑すぎる

  この辺りも処理すればスッキリすると思うのですが、いかがでしょう。

>>   * 対象文書の選択について
>>     - 現在は mknmz が対象文書を選択している
>>     - 別のプログラムにした方がすっきりするのだが…
>>       + select-target-documents | mknmz

  これは良さそうですね。しかし、Win32 方面はこのあたりどうなんでしょう... 
素の Windows (というか DOS?)の pipe はかなりインチキな実装(いったん
temporary に書き出してから次のプログラムに渡す)だったような記憶がある
のですが、cygwin なら大丈夫だったりするのでしょうか。それとも記憶違い?

<2000Apr26bt2xzeaq.kose@xxxxxxxxxxxxxxxxxx>の記事において
kose@xxxxxxxxxxxxxxxxxxさんは書きました。

>> Info 形式、Emacs の Rmail 形式、UNIX mbox 形式のようなものも
>> 分割して mknmz できると嬉しいな。Namazu はそういう --doc-split 
>> モジュールを切り替え可能な切口が用意されているだけでいいと思う。

  そうですね。

>> 「わかち書き」も filter として実装すると切り替え可能だし、

# 早く libsplitter を実装せねば... 連休中には作業しよう。

>> > これらの問題を解決するには思いきった書き直しが必要です。いつ
>> > になったらやる気が起きるかな…。
>> 
>> mknmz 本体は骨組みだけの単純なものだといいかもしれません。

  いっそのこと、index に使うデータ形式も pluggable にするとか ^^;
-- 
野首 貴嗣
E-mail: knok@xxxxxxxxxxxxx (private)
        nokubi@xxxxxxxxx (official)