Namazu-users-ja(旧)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Latin-1 (ISO-8859-1) コード文書処理に関する質問です
- From: "Yoshi Nagata" <ynagata@xxxxxxxxxxxxxxx>
- Date: Wed, 15 Aug 2001 11:07:23 +0900
- X-ml-name: namazu-users-ja
- X-mail-count: 01933
永田@福岡大といいます。
X-Mail-Count 01927(msg01926.html) の HASEGAWA さんに触発され
まして、関連の質問をさせて戴けませんでしょうか。
私も Latin-1 コード文書を Namazu で処理できたらどんなに素晴らしい
ことか、と思いました。そんな折、時宜を得てとでもいいましょうか、
Namazu v. 2.0.6 の公開がアナウンスされました。マニュアルを拝見
しますと、manual.html#mknmz の「形態素解析」の箇所に
-L, --indexing-lang=LANG
というオプションを見つけました。察するに、これが「Latin-1 コード文書」
処理と関連すると思うのですが、「具体的」には、どのようにして用いる
のでしょうか。例えば、「ドイツ語」を扱いたい場合は
mknmz --indexing-lang=de
等とする、ということなのでしょうか。
さらに、Namazu はデフォルトで *.html 及び *.txt 文書を扱えますが
「Latin-1 コード文書」処理の場合、*.html の記法は
1. ISO-8859-1 コードによるダイレクト表記
2. SGML (HTML) による文字実体参照
# 例えば「a ウムラウト(a の上に二個の点々)」は「ä」と書く
# ということ。
のどちらでもよいのでしょうか。どちらの記法で書かれた文書も
同じように検索してくれるのでしょうか。
これと関連して、namazu でこうした「特殊文字を含む文字列」を検索する
場合には、「どのようにしてその特殊文字を入力」するのでしょうか。
日本語Windows 上では IME を切り替えて「ドイツ語直接入力」 が
できる状態になっていたとしても、これを DOS 画面で使うことは
できませんし、Search-s for Namazu のインターフェースでも
同様に入力できません。Linux 等のコンソール上では、こうしたこと
は可能となっているのでしょうか。
ならば、と、CGI のウェブブラウザ経由でこれを行えば「ドイツ語直
接入力」はできますが、どうもうまく機能しないようなのです。
# 例えばダイレクトに「K"onig」 ("o 部分は o ウムラウトと見なして
# ください) と検索式に入れてやっても、実行は「Knig」でなされて
# いるようなのです。
ご教示を、どうぞ、宜しくお願いいたします。
------------------------------
ynagata@xxxxxxxxxxxxxxx
------------------------------