Namazu-devel-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: html-split について



たかく@図書館情報大です。

純粋に、
<a name="">やURIにnon-ASCIIを含む場合の指針は以下にあります。

http://www.w3.org/International/O-URL-and-ident.html
や
HTML4.01仕様書の「B.2.1 Non-ASCII characters in URI attribute values」
http://www.w3.org/TR/html401/appendix/notes.html#h-B.2.1

これを読みますと、
URI中のnon-ASCIIはUTF-8でURIエンコードすべき、
と読めますね。

# ただ、実際問題として、
# この方針に沿っていないページが多くあり、
# ブラウザなどの実装もこれに則っていないものが多くあるのも事実なので…。
〜〜
あとは、Namazuとしての仕様をどうするかですが、
以下のような論点があると思います。

 * UTF-8 ベースにすべきか。
 * URIの自動変換は行うべきか。(EUCへの)?
 * URIエンコードは行うべきか。

まずは、ある程度ブラウザ毎の実装がどうなっているか、
見てみる必要があるかも知れませんね。

# あくまでも*個人的な*感想ですが。
今のコードにUTF-8ベースの処理を付け加える必然性はさほど無いと思うので、
Namazuのインデックス全体をUTF-8ベースに変更する時についでに、
これらの変更も加えれば良いのではと思います。

## ところで、
Perlの次のバージョンっていつ頃出る予定なんでしょう?
--
高久 雅生  // ULIS : University of Library and Information Science
    図書館情報大学大学院 図書館情報学研究科 修士 2 年次  石塚研究室
    mailto:masao@xxxxxxxxxx	http://www.ulis.ac.jp/~masao/