namazu-ml(avocado)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: Namazu internal
山内@電気通信大学と申します.
インデックスファイルを使ってみたくて先日ちょっと調べておりました.(が,
やがて文書になると知ってから心待ちにしておりました.他力本願ですみませ
ん.) 細いことなので指摘する必要もないかもしれません.
From: Satoru Takabayashi <satoru@xxxxxxxxxxxxx>
> NMZ.* ファイルの詳細
>
> * NMZ.i
> - インデックスファイル (転置ファイル, inverted ファイル)
>
> 構造
>
> [単語1\n]
> [エントリの総数 * 2][文書ID][スコア][文書ID][スコア]....
> [単語2\n]
> [エントリの総数 * 2][文書ID][スコア][文書ID][スコア]....
> [単語3\n]
> [エントリの総数 * 2][文書ID][スコア][文書ID][スコア]....
> ...
>
> 注意点
> + 検索用インデックスのボス
> + 単語は改行コードを伴う
> + 単語はコードの若い順に並ぶ
> + 文書IDは小さい順に並ぶ --重要
> + JIS X 0208の文字はEUC-JPで記録される
> + 文書ID,スコア部はバイナリデータ
バイナリデータの最後に \n があるように思います.この書き方から想像するに,
[単語1\n]
[エントリの総数 * 2][文書ID][スコア][文書ID][スコア]....\n
^^^ ここです
という感じでしょうか.
---------------------------------------------------------------------
電気通信大学情報システム学研究科分散処理学講座 助手 山内斉
--E-mail-- yamauchi@ #=[ O ]=# TEL: 0424(43)5638
/_________/ is.uec.ac.jp [PhonE] FAX: 0424(43)5681(事務)