namazu-ml(avocado)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: mkmnz.pl jcode.pl patch



Ken-ichi Hirose <hirose@xxxxxxxxxxxxxxxxxxxx> wrote:

>>小さいファイルを対象としてしまったのと、
>>patchは思いっきり手抜きですが、ここまで遅くなかったです。
>>#5回しか試してもいないので、これまた何とも言えませんが。
>
>mknmz はでっかいファイルを、キャッシュが効かない状態で何百個も読むので
>負荷を掛けた状態で試した値を見てみたいです。

私の試したテストは純粋に nkf と jcode.pl で大きめのテキストファイ
ル (67KB) を処理するのにかかる時間を比較しているので、 mknmz の実
行速度で計測すると他の処理の方に時間がかかってあまり差がでてこない
のでしょうね。

でも、 jcode.pl はやっぱり遅いので大量にファイルを処理すると結構な
差が出てくると思います。


>あともう一つ理由があって、 nkf だと入力漢字コード系の統計的な自動認識
>機能があるのですが、jcode だと最初に出て来た漢字コードになってしまうよ
>うな気がします。

たしか nkf は行毎にコードを認識していたと思います。 jcode.pl でも
ループを回して行単位でコードを認識させれば同じようなことができると
思いますが、ますます遅くなりますね。

nkfと対等に近い速度が Perlで出せれば良いのですが、なかなか難しいよ
うに思います。 XSのモジュールはインストールがちょっと面倒なので敬
遠したいです。

# でも ISO-2022-JP -> EUC-JP と Shift_JIS -> EUC-JP の変換だけで良
# いのだから、それだけに絞った単純なコードなら案外結構速いのができ
# るかもしれない。

--
高林 哲 Satoru Takabayashi