Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 大量データを扱いたいのですが・・・



さいの です

In article <396490FAF8.8A03TAKUYA.KIRIYAMA@xxxxxxxxxxxxxxxxxxxxxx>
takuya.kiriyama@xxxxxxxxxxx writes:

>>とある本ですとかCDですとかの商品約100万件の全文検索を行いたいのが
>>まず、namazuでのindexファイルを作成するのにどれくらいの時間がかかるのか?

index作成時間に関してはnamazuを動かすシステムの方にも依存します。
一概に何時間くらいと答えられる人はいないんじゃないかなー。。。

index作成だけに関して言えば,日々更新されるような動的データでなければ
極端なはなし24時間だろうが1週間だろうが何時間かけても問題無いような
気がしますが。。。

因に,以前ボロマシンで1週間かけてindexを作成していたことがあります。
indexさえきちんとできてしまえば全文検索はスピーディーできてましたよ。

>>また、100万件を全文検索する場合にもどれくらいの時間がかかるのか?
>>ずいぶん中途半端な書き方をしまして申し訳ありません。

100万件というのがキーワードの数なのであれば特に問題はないかと。。。
また,事前に検索すべきキーワードが判っているのであれば(商品データ?)
辞書ファイルをカスタマイズすることで効率を上げることができるのかも
しれません。でも商品検索という話ならデータベースを動かした方が良い
のでは?(キーワード登録に対する確実性の問題とか。。。)

>>過去にこのような大量のデータを扱ったことのある方、ノウハウを
>>もっていらっしゃる方、どうぞご教授の程を宜しくお願いいたします。

因に現在私が動かしている検索エンジンでは html,txt,pdfファイル及び,
excel,wordファイル全て合わせると17万ファイル以上有りキーワード
の合計は400万件以上になります。一度にインデックスを作るのは大変
なので分散処理してます。システム構成は,

	H/W: HP B2000 Workstation + 1GByte Memory
	OS:  HP-UX 11.00

以前は,Sun SS10 とか使ってましたが,遅くて。。。 (^^;