Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: mknmzで文書ファイルから英単語リストの作成は可能か
寺西です。
私、単語の取り出しに mknmz を使ったことはあります。手軽にそれなり
のものが得られるので。
その時は、きちんとしたものである必要はなかったし、得られた NMZ.w を
ベースに手を加えるつもりでしたら、十分目的は果たせました。
Satoshi Osabe wrote:
>
> mknmzの出力ファイルについて質問です。
> htmlの文章より、英単語を全て取り出したいのですが、mknmzの出力ファイルを
> 使うことはできませんか。NMZ.wが最もほしいものに近いのですが、大文字
> 小文字が保たれていません。
mknmz の count_words() の中の
# Normalize into small letter.
$$contref =~ tr/A-Z/a-z/;
の行をコメントアウトすれば、大文字・小文字は保たれると思います。
(無保証)
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E