namazu-ml(avocado)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: chasen (Re: Distributed Namazu)
- From: Kaz SHiMZ <kshimz@xxxxxxxxx>
- Date: Mon, 16 Nov 1998 22:48:20 +0900
- X-ml-name: namazu
- X-mail-count: 01600
清水@住友林業です。
# とりあえずの第一報。
Koji Kishi <kis@xxxxxxxxxxxxxxxxx> さんは書きました ;
> > というわけで、chasen が core dump する対象文書の URL を教えていた
> > だければ、debug option だらけの OS/2 port ベータ版でトレースして
> > みます。
>
> http://www.isoc.org/postel/condolences.shtml
> http://www.isoc-ny.org/about.html
えー、まず、OS/2 では、前者はどうやっても core を吐きませんでした。
で、後者は、-j オプションを付けると chasen が core を吐きますが、
-j オプションを付けなければ、まともに終わります。
で、-j オプションを付けたままでも、core は吐くものの、標準出力には
読み込んだファイルに対して、最後までそれなりの出力がされています。
これをファイルに出力すると、原文では 0x0aで区切られた100行程度が、
1行に連結された行が出現します。(日本語の句読点は含まれない)
たぶん、この行でバッファが溢れたのではあるまいか、と現象から当たり
を付けているのですが、現在、本業の方が突然、火を吹きつつあるので、
第二報はしばらくお待ちくださいませ。 m(__)m
# ちょっと、今、ソースを追いかける時間と気力が出てこない...
ところで。
上記の二つとも、日本語コードらしきものは含まれていないので、そもそも
chasen で -j をつけても、「、」「。」が検出されないので無意味だと思
います。
ところが、両者ともに EUC と誤認されそうな文字列があります。しかし、
日本語 EUC ではないので、これが「悪さ」をしているような感じもするの
ですが、この手の文字列が比較的多く含まれる(数行にわたって続く)、
前者(http://www.isoc.org/postel/condolences.shtml)は OS/2 版 chasen
では core を吐かないので、どうにも困った困った、です。
end
--
住友林業株式会社 情報システム部 清水 和佳
TEL: +81-3-5322-6672 FAX: +81-3-5322-6658 Niftyserve: XLW01034
e-mail: <kshimz@xxxxxxxxx>