Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
HTML splitting
- From: Satoru Takabayashi <satoru-t@xxxxxxxxxxxxxxxxxx>
- Date: Wed, 01 Mar 2000 09:13:05 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 00105
HTML の <a name="...">...</a> および <foo id="...">...</foo>
の対応は割と簡単に実現できる気がしてきました。やるべき処理は
* --html-split オプションを新設
* HTMLファイルを処理する際に適切に分割する
* mknmz ではそれらをただのHTMLファイルとみなして処理する
* NMZ.r の処理を工夫する
だけです。ひとまず「HTMLファイルを処理する際に適切に分割する」
部分を独立のプログラムとして書いてみます。
実行時の出力は次のようにしたいと思います。
% mknmz /home/foo/doc/ja
4個のファイルがインデックス作成の対象として見つかりました
1/4 - /home/foo/doc/ja/manual.html [text/html]
HTMLファイルを分割処理します: 36分割
1/36 - #components
2/36 - #mknmz
3/36 - #mknmz-option
4/36 - #mknmzrc
5/36 - #doc-filter
6/36 - #namazu
7/36 - #namazu-option
8/36 - #namazurc
9/36 - #default-index
10/36 - #cgi
11/36 - #setting
12/36 - #.namazurc
13/36 - #template
14/36 - #form
15/36 - #form-idxname
16/36 - #form-idxnames
17/36 - #form-subquery
18/36 - #form-lang
19/36 - #tools
20/36 - #bnamazu
21/36 - #nmzgrep
22/36 - #gcnmz
23/36 - #mailutime
24/36 - #vfnmz
25/36 - #rfnmz
26/36 - #query
27/36 - #query-term
28/36 - #query-and
29/36 - #query-or
30/36 - #query-not
31/36 - #query-grouping
32/36 - #query-phrase
33/36 - #query-substring
34/36 - #query-regex
35/36 - #query-field
36/36 - #query-notes
(snip)
-- Satoru Takabayashi