Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

NMZ.w の中身が文節に区切られていない?



松原と申します。

先日「使用頻度の高い名詞と動詞を調べたい」の件に関してヒントを頂いた芦
川様、野首様、ありがとうございます。 
別件で理解できないことがあります。どなたかご教示いただければ幸いで
す。 どうも mknmz したときに NMZ.w の中身がうまく文節に分かれてくれて
いないようなのです。

やったこと

[1] 一文のみのファイル一つを含むディレクトリを作成した。
bash-2.04$ ls 
testdoc
bash-2.04$ cat ./testdoc
僕は今、なまずと茶筅の実験をしています。うまくいくでしょうか?

[2] chasen を用いて形態素解析してみると、22の文節に分かれた。
bash-2.04$ chasen testdoc
僕      ボク    僕      名詞-代名詞-一般
は      ハ      は      助詞-係助詞
今      イマ    今      名詞-副詞可能
、      、      、      記号-読点
な      ナ      だ      助動詞  特殊・ダ        体言接続
まず    マズ    まず    副詞-一般
と      ト      と      助詞-副詞化
茶筅    チャセン        茶筅    名詞-一般
の      ノ      の      助詞-連体化
実験    ジッケン        実験    名詞-サ変接続
を      ヲ      を      助詞-格助詞-一般
し      シ      する    動詞-自立       サ変・スル      連用形
て      テ      て      助詞-接続助詞
い      イ      いる    動詞-非自立     一段    連用形
ます    マス    ます    助動詞  特殊・マス      基本形
。      。      。      記号-句点
うまく  ウマク  うまい  形容詞-自立     形容詞・アウオ段        連用テ接続
いく    イク    いく    動詞-自立       五段・カ行促音便        基本形
でしょ  デショ  です    助動詞  特殊・デス      未然形
う      ウ      う      助動詞  不変化型        基本形
か      カ      か      助詞-副助詞/並立助詞/終助詞
?      ?      ?      記号-一般
EOS

[3] mknmz してみた
mknmz -c -a ./smalltest

[4] NMZ.w を見てみたら、たった2行のテキストファイルだった!
bash-2.04$ cat NMZ.w
testdoc
僕は今、なまずと茶筅の実験をしています。うまくいくでしょうか?

-------------
http://www.namazu.org/doc/nmz.html.ja#w を読んだ限りでは22行のテキスト
ファイルになっていて、各行に文節に分けられた語句がならんでいるのが正し
い気がするのですが… NMZ.w のフォーマットが変わったのでしょうか?

どうかよろしくお願いします。質問ばかりで恐縮ですが…

Regards, Jota Matsubara
mail to: jota@xxxxxxxxxxxxxxxx