Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Latin-1 (ISO-8859-1) コード文書処理に関する質問です



永田@福岡大といいます。

X-Mail-Count 01927(msg01926.html) の HASEGAWA さんに触発され
まして、関連の質問をさせて戴けませんでしょうか。

私も Latin-1 コード文書を Namazu で処理できたらどんなに素晴らしい
ことか、と思いました。そんな折、時宜を得てとでもいいましょうか、
Namazu v. 2.0.6 の公開がアナウンスされました。マニュアルを拝見
しますと、manual.html#mknmz の「形態素解析」の箇所に

-L, --indexing-lang=LANG

というオプションを見つけました。察するに、これが「Latin-1 コード文書」
処理と関連すると思うのですが、「具体的」には、どのようにして用いる
のでしょうか。例えば、「ドイツ語」を扱いたい場合は

mknmz --indexing-lang=de

等とする、ということなのでしょうか。

さらに、Namazu はデフォルトで *.html 及び *.txt 文書を扱えますが
「Latin-1 コード文書」処理の場合、*.html の記法は

1. ISO-8859-1 コードによるダイレクト表記
2. SGML (HTML) による文字実体参照

# 例えば「a ウムラウト(a の上に二個の点々)」は「ä」と書く
# ということ。

のどちらでもよいのでしょうか。どちらの記法で書かれた文書も
同じように検索してくれるのでしょうか。

これと関連して、namazu でこうした「特殊文字を含む文字列」を検索する
場合には、「どのようにしてその特殊文字を入力」するのでしょうか。

日本語Windows 上では IME を切り替えて「ドイツ語直接入力」 が
できる状態になっていたとしても、これを DOS 画面で使うことは
できませんし、Search-s for Namazu のインターフェースでも
同様に入力できません。Linux 等のコンソール上では、こうしたこと
は可能となっているのでしょうか。

ならば、と、CGI のウェブブラウザ経由でこれを行えば「ドイツ語直
接入力」はできますが、どうもうまく機能しないようなのです。

# 例えばダイレクトに「K"onig」 ("o 部分は o ウムラウトと見なして
# ください) と検索式に入れてやっても、実行は「Knig」でなされて
# いるようなのです。

ご教示を、どうぞ、宜しくお願いいたします。
------------------------------
ynagata@xxxxxxxxxxxxxxx
------------------------------