Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
NMZ.w の中身が文節に区切られていない?
- From: Matsubara Jota <jota@xxxxxxxxxxxxxxxx>
- Date: Thu, 14 Dec 2000 17:33:38 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 01322
松原と申します。
先日「使用頻度の高い名詞と動詞を調べたい」の件に関してヒントを頂いた芦
川様、野首様、ありがとうございます。
別件で理解できないことがあります。どなたかご教示いただければ幸いで
す。 どうも mknmz したときに NMZ.w の中身がうまく文節に分かれてくれて
いないようなのです。
やったこと
[1] 一文のみのファイル一つを含むディレクトリを作成した。
bash-2.04$ ls
testdoc
bash-2.04$ cat ./testdoc
僕は今、なまずと茶筅の実験をしています。うまくいくでしょうか?
[2] chasen を用いて形態素解析してみると、22の文節に分かれた。
bash-2.04$ chasen testdoc
僕 ボク 僕 名詞-代名詞-一般
は ハ は 助詞-係助詞
今 イマ 今 名詞-副詞可能
、 、 、 記号-読点
な ナ だ 助動詞 特殊・ダ 体言接続
まず マズ まず 副詞-一般
と ト と 助詞-副詞化
茶筅 チャセン 茶筅 名詞-一般
の ノ の 助詞-連体化
実験 ジッケン 実験 名詞-サ変接続
を ヲ を 助詞-格助詞-一般
し シ する 動詞-自立 サ変・スル 連用形
て テ て 助詞-接続助詞
い イ いる 動詞-非自立 一段 連用形
ます マス ます 助動詞 特殊・マス 基本形
。 。 。 記号-句点
うまく ウマク うまい 形容詞-自立 形容詞・アウオ段 連用テ接続
いく イク いく 動詞-自立 五段・カ行促音便 基本形
でしょ デショ です 助動詞 特殊・デス 未然形
う ウ う 助動詞 不変化型 基本形
か カ か 助詞-副助詞/並立助詞/終助詞
? ? ? 記号-一般
EOS
[3] mknmz してみた
mknmz -c -a ./smalltest
[4] NMZ.w を見てみたら、たった2行のテキストファイルだった!
bash-2.04$ cat NMZ.w
testdoc
僕は今、なまずと茶筅の実験をしています。うまくいくでしょうか?
-------------
http://www.namazu.org/doc/nmz.html.ja#w を読んだ限りでは22行のテキスト
ファイルになっていて、各行に文節に分けられた語句がならんでいるのが正し
い気がするのですが… NMZ.w のフォーマットが変わったのでしょうか?
どうかよろしくお願いします。質問ばかりで恐縮ですが…
Regards, Jota Matsubara
mail to: jota@xxxxxxxxxxxxxxxx