Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: mknmzで文書ファイルから英単語リストの作成は可能か



寺西です。

私、単語の取り出しに mknmz を使ったことはあります。手軽にそれなり
のものが得られるので。
その時は、きちんとしたものである必要はなかったし、得られた NMZ.w を
ベースに手を加えるつもりでしたら、十分目的は果たせました。

Satoshi Osabe wrote:
> 
> mknmzの出力ファイルについて質問です。
> htmlの文章より、英単語を全て取り出したいのですが、mknmzの出力ファイルを
> 使うことはできませんか。NMZ.wが最もほしいものに近いのですが、大文字
> 小文字が保たれていません。

mknmz の count_words() の中の

    # Normalize into small letter.
  $$contref =~ tr/A-Z/a-z/;

の行をコメントアウトすれば、大文字・小文字は保たれると思います。
(無保証)
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns@xxxxxxxxxxxxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E