Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
--html-split (namazu-bug#10)
- From: panda@xxxxxxxxxxxx
- Date: Tue, 25 Apr 2000 11:03:38 +0900 (JST)
- X-ml-name: namazu-devel-ja
- X-mail-count: 00409
Full_Name: Hisashi Hoshino
Version: 2.0.4
OS: Debian GNU/Linux
Submission from: (NULL) (210.249.51.33)
以下のようなHTMLファイルをmknmz --html-splitでインデックスを
作成すると問題が発生するようです。
<A NAME="0">
^
上記の部分が数字の0だと問題になるようです。
$ cat dame.html
<HTML>
<HEAD>
<TITLE>html-split test</TITLE>
</HEAD>
<BODY BGCOLOR=#ffffff TEXT=#000000 LINK=#238e23 VLINK=#32cd99 ALINK=#ff0000>
<BLOCKQUOTE>
<CENTER>
--html-split Test
</CENTER>
<A NAME="0">A</A>
<p>
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
</p>
<A NAME="1">B</A>
<p>
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
</p>
<A NAME="2">C</A>
<p>
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
</p>
<A NAME="3">D</A>
<p>
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
</p>
<A NAME="4">E</A>
<p>
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
</p>
<A NAME="5">F</A>
<p>
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
</p>
</BODY>
</HTML>
$ mknmz -k --html-split dame.html
1個のファイルがインデックス作成の対象として見つかりました
1/1 - /home/hoshino/tochi/dame.html [text/html]
1/6 - /home/hoshino/tochi/dame.html [text/html]
2/6 - /home/hoshino/tochi/dame.html#1 [text/html]
3/6 - /home/hoshino/tochi/dame.html#2 [text/html]
4/6 - /home/hoshino/tochi/dame.html#3 [text/html]
5/6 - /home/hoshino/tochi/dame.html#4 [text/html]
6/6 - /home/hoshino/tochi/dame.html#5 [text/html]
インデックスを書き出しています...
[基本]
日付: Tue Apr 25 10:53:51 2000
追加された文書の数: 7
サイズ (bytes): 1,227
合計の文書数: 7
追加キーワード数: 14
合計キーワード数: 14
わかち書き: /usr/bin/kakasi -ieuc -oeuc -w
経過時間 (秒): 24
ファイル/秒: 0.29
システム: linux
Perl: 5.00503
Namazu: 2.0.4
$ sort NMZ.r | uniq -c |sort -nr | head -3
2 /home/hoshino/tochi/dame.html
1 /home/hoshino/tochi/dame.html 5
1 /home/hoshino/tochi/dame.html 4
<A NAME="A">
^
上記のように数字以外の文字であれば問題は発生しないようです。
$ mknmz -k --html-split index.html
1個のファイルがインデックス作成の対象として見つかりました
1/1 - /home/hoshino/tochi/index.html [text/html]
1/6 - /home/hoshino/tochi/index.html#A [text/html]
2/6 - /home/hoshino/tochi/index.html#B [text/html]
3/6 - /home/hoshino/tochi/index.html#C [text/html]
4/6 - /home/hoshino/tochi/index.html#D [text/html]
5/6 - /home/hoshino/tochi/index.html#E [text/html]
6/6 - /home/hoshino/tochi/index.html#F [text/html]
インデックスを書き出しています...
[基本]
日付: Tue Apr 25 10:38:21 2000
追加された文書の数: 7
サイズ (bytes): 1,227
合計の文書数: 7
追加キーワード数: 14
合計キーワード数: 14
わかち書き: /usr/bin/kakasi -ieuc -oeuc -w
経過時間 (秒): 25
ファイル/秒: 0.28
システム: linux
Perl: 5.00503
Namazu: 2.0.4
様々なコンテンツをインデックス化している過程でこのようなHTML
ファイルがあるのを発見しましたので報告します。