namazu-dev(ring)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: $conf::EXCLUDE_REGEX question
masao@xxxxxxxxxx (Masao Takaku) wrote:
>mknmz の $conf::EXCLUDE_REGEX の動作について質問があります。
>
>この変数による設定を最近利用して思ったのですが、
>これによるファイルの読みとばしって、
>load_document() の後で、判定してますよね。
>これは、結構、無駄な動作なのでは? と思いました。
確かにそうですね。
>あと、この変数の実際の動作なんですが、
>実質的には、ファイルのURIに対しての正規表現の指定となってますが、
>ローカルのpathに対して指定するのと、どっちが良いんでしょうか?
ローカルの pathだと思います。
>実際のコードのコメントには、以下のように「Pathnames」となってますが…。
>〜〜
> ## Pathnames which match this regex will be excluded.
> $EXCLUDE_REGEX = undef;
>〜〜
>もしも、pathnameに対してのものなら、
>find_target() 直後で判定すれば良いと思います。
はい。 wanted() 内で除外してしまえばいいと思います。
isexcluded() は robots.txt 専用にすればいいですね。
# 昨日、今日とちょっと風邪気味でつらいので、もしよければ、た
# かくさんの方で修正してもらえると助かります
>ついでに、別のコードの部分ですけど、
>「"is too a LARGE text! skipped."」
> ↓
>「is a too LARGE」ではないのでしょうか?
> ^^^^^
ジーニアス英和辞典を引いたところ
| It is much 〜 hot a day for work. きょうは仕事をするにはあま
| りにも暑い《◆tooの強調にveryは不可》.
| (snip)
| ◇[語法][too+形容詞+名詞] (1) 通例「too+形容詞+a+_名詞」の語
| 順をとるが... a 〜 hot dayとすることもある.
と載っていました。is too LARGE a text がいいみたいです。この
部分だけ修正して commit しておきました。
# 電子辞書の情報はこちら :-)
# <http://cl.aist-nara.ac.jp/~satoru-t/SD-1999-09/>
>## 英語は苦手なので、自信はありませんが。
私も苦手です。 2年前よりは少しはましになったと思うけど…。で、
2年前につけた intro.html の title は
<title>Namazu the full text retrieval search system</title>
^^^
となっています。ここは a の方が好ましい気がします。v2.0 の文
書では a にしておこう。:-)
ほかにもおかしな点があれば指摘・修正してくださいませ。
# doc/en/*.html は英語に堪能な人に協力してもらって全面的に書
# き直すのでしばらく見ないふりをしてくださいませ。今の文章は
# かなりひどいので。doc/ja/*.html の文章も結構ひどいなあ…。
# (今の自分の好みではない)
-- Satoru Takabayashi