Namazu-users-ja(旧)


[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

PHP、CGIファイルなどを検索対象から外すには



はじめまして。
シンドウと申します。

先日namazuの設置を始めたのですが、
とりあえず、指定のディレクトリ以下の検索はできるようになりました。

これからインターフェイス等色々と作りこまなければならないのですが、
まず始めに検索結果にPDFやPHP、CGIファイル等を含ませたくないと思い、

mknmzrc の設定を

------------------------------------------------------------------------

 $ALLOW_FILE =  ".*\\.(?:$HTML_SUFFIX)" .          #|.*\\.txt" . # HTML, plain text
#               "|.*\\.gz|.*\\.Z|.*\\.bz2" .       # Compressed files
#               "|.*\\.pdf|.*\\.ps" .              # PDF, PostScript
#               "|.*\\.tex|.*\\.dvi" .             # TeX, DVI
#               "|.*\\.rpm|.*\\.deb" .             # RPM, DEB
#               "|.*\\.doc|.*\\.xls|.*\\.ppt" .    # Word, Excel, PowerPoint
#               "|.*\\.j[sabf]w|.*\\.jtd" .        # Ichitaro 4, 5, 6, 7, 8
#               "|\\d+|[-\\w]+\\.[1-9n]";          # Mail/News, man

 $DENY_FILE = ".*\\.txt|.*\\.cgi|.*\\.php|.*\\.(gif|png|jpg|jpeg)| \#改行
.*\\.tar\\.gz|core|.*\\.bak|.*~|\\..*|\x23.*";

-----------------------------------------------------------------------

としてみました。

しかし、結果は

171個のファイルがインデックス作成の対象として見つかりました
1/171 - /home/docs/test/test.pdf 未対応の形式 (application/pdf)無視します
1/170 - /home/docs/test/test.php [text/html]
2/170 - /home/docs/test/test.html [text/html]
3/170 - /home/docs/test/test2.php [text/plain]

といった感じで、PHPやCGIファイルを読み込んでしまいました。
pdfは上の結果や検索状況から察するに検索対象から外されているので、
この辺がヒントではないかと思い、色々と調べてみたのですが、
どうしても解決に至りませんでした。

色々と検索をしていると、PHPやCGIファイル以外にも
検索対象としたくないファイルが色々とあることが発覚し、
(*.cfgなんてものも出てきました。)
今はとにかく「*.html」以外のファイルは検索対象としないようにできればと考えています。

ご教授頂ければ幸いです。
よろしくお願い申し上げます。