Namazu-devel-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
全角半角変換
- From: Yukio USUDA <usuda@xxxxxxxxxx>
- Date: Wed, 04 Jun 2003 12:47:45 +0900
- X-ml-name: namazu-devel-ja
- X-mail-count: 02941
- References: <LHEMJHJLPMHGBDJJGOJHOECKCGAA.atropos@yeslaw.com>
臼田です
中途半端で気になっていた一太郎フィルタtaro56.plとtaro7_10.pl
に手を加えて罫線等の制御コードをなるべく除去するように直し
てcommitしました。
罫線、図表や半角カナがたくさん混ざったjtdファイルを試している
うちに気になってどうしようか悩んでいるところがあります。
taro7_10.plの出力で現在以下の3点が気になっています
1.丸数字、"−"、"〜"が消滅する。
utf16->EUCの変換に用いているunicode.plがwindows系の
変換表CP932を使用していないためなのですが、通常
検索語に使う文字ではないだろうから無視しようと思って
います。
2.半角カナを全角にせずにEUCの2byte半角カナのまま出力し
ている。
3.全角英数、記号をそのまま出力している。
codeconv.plに更にサブルーチンを設けるか、最後にnkfを通し
て正規化を任すのがよいのかこのままにしておくのがよいのか
悩んでいます。
http://www.namazu.org/ml/namazu-users-ja/msg03276.html
http://www.namazu.org/ml/namazu-users-ja/msg03291.html
で最近話題が出ているので過去のメールも探したのですが
「変換したほうが検出されやすくなるのでよい」ということ
まではわかるのですが半角カナ -> 全角カナ変換はnkfの標
準動作のようなので「変換しなければ検索で検出されない」
なのかどうかがよくわかりませんでした。
msword.plやexcel.plなどlvを使用しているフィルタモジュー
ルは半角カナも全角英数を気にしているようには見えないので
どうしようかと思っているところです。
半角カナ、全角英数の扱いにルールはなにかあるのでしょうか?
臼田幸生