Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: page /w noindex has indexed



さすが森本さん。完璧なバグレポートです。いいお手本になりま
す。:)

Jun Morimoto <morimoto@xxxxxxxxxxxxxxxxxx> wrote:

>● 現象
>
>NOINDEX 指定のページが mknmz 対象になってしまう
>
>● 解説
>
><HEAD> 内に <META NAME="ROBOTS" content="NOINDEX"> があり、
>かつ <A NAME="foo"></A> 指定のあるページを
>--html-split を指定して mknmz すると、
>--robots も指定してあるにかかわらず、
>最初の A NAME="" 以降のセクション? がインデキシングされてしまう。

対策としては次の 2つが考えられます。

  1. しぶしぶ直す
     - 直せなくはないが、どろどろとプログラムが複雑化する
     - すでに複雑性は限界に近づきつつある
     - --robots は僕は使っていない
     - よって、直す気が起きない

  2. これを機会に --robots という毛深い (hairy) 機能は廃止する
     - % find . -type f -name '*.html' | \
         xargs grep -l '<META NAME="ROBOTS" content="NOINDEX">' > list;
         mknmz --target-list=list
       といった感じでなんとかなりますよね。必要とあれば、専
       用の shell/perl script を用意してもいいです。
       (誰か作ってくれないかな)

忍び寄る機能主義 (creeping featureism) によって Namazu は毛
深い機能をたくさん持っています。 2.0 の時点でいくつかの機能
は廃止しましたが、それでもまだ毛深いです。

backward compatibility は大切だが、それよりアホな仕様を廃止
する方が大切だ、 Namazu は商用製品ではないのだから開発者側の
多少のわがままは許して欲しい、と僕は思っています。

# スタイルの一貫性を守ることは大切だが、アホなスタイルならス
# タイルを変えることが大切だ、とも思います。もちろん、変更後
# は新しいスタイルで一貫性を保たねばなりませんが。

ちなみに、僕の好きな言葉に

  Once the toothpaste is out of the tube, it's hard to get
  it back in. -- H.R. Haldeman

というものがあります。いろんな意味にとれますが、一度アホな仕
様を盛り込むと、それを廃止するのは難しい、という意味にもとれ
ます。

Windows は MS-DOS時代のアホな仕様をたくさん引きずっています
よね。 Namazu でよく問題になるものだけでも、 ドライヴレター、 
シフトJIS、パス名の区切りの \、 $PATH の区切りの ; 、アホな
パイプ、などがあります。

# Makefile の左端の TAB はまさにこの典型かな。アホな仕様を引
# きずっているという点では perl はかなりのものだと思う。:)

-- Satoru Takabayashi