Masayuki Shibata
mshib****@shima*****
2009年 12月 21日 (月) 21:28:15 JST
柴田@亀岡市です。 まだ微妙にわかっていないようで少し迷いがあります。 以下の (1)、(2) のところなのですが、当初 Allow → Deny の方向 に設定するのだと思い込んでいて、除外対象設定より対象設定が優先 される旨の記述と合わないなぁと思っておりました。 -----設定例ここまで----- [URL] 'http://hostname/svn/' [クロール対象とするURL] 現行: 'http://hostname/svn/.*' → ◎ 空に?(1) [クロール対象から除外するURL] 'http://hostname/svn/NeedlessPrj1(|/.*)' 'http://hostname/svn/NeedlessPrj2(|/.*)' [検索対象とするURL] '.*\.doc$' [検索対象から除外するURL] 現行: 空 → '.*' に (2) -----設定例ここまで----- その疑問は先にご説明していただいて Deny → Allow の方向で設定 して、いったん全部塞いでから穴をあけるのだと気づきましたので、 検索対象の方は、例えば拡張子 doc のファイルだけ検索したいとき は、上記の設定 (2) でよさそうに思います。 迷っているのはクロール対象の方 (1) です。 塞ぎたいのは NeedlessPrj1 と NeedlessPrj2 だけで、ほかはクロー ル対象にしたいので、Deny → Allow だとすると設定を空にしておく のが正解だとは思うのですが、 http://fess.sourceforge.jp/ja/1.2/admin/webCrawlingConfig-guide.html ...の 「http://localhost/ 以下しかクロールしない場合は、クロール対象 とする URL に http://localhost/.* また (中略) と指定します。」 ...が Allow → Deny で説明されているような気がするので、読んで いてわからなくなりました。 #除外対象「.*\.png$」に対象 URL 「http://localhost/.*」が勝つ #のなら「http://localhost/.*\.png$」は対象に含まれるのでは? 検索対象の方は Deny → Allow 順で、クロール対象の方は Allow → Deny 順に解釈する (除外設定が優先) ということはありませんでし ょうか? だとすると現行の説明... [クロール対象とする URL] 指定された正規表現の URL をクロールします。クロール除外対象とする URL と指定されていても、ここ での指定が優先されます。 [クロール対象から除外するURL] 指定された正規表現の URL をクロール対象としません。 ...は、以下のようになるのではないかという気がします。 [クロール対象とする URL] 指定された正規表現の URL をクロールします。 [クロール対象から除外するURL] 指定された正規表現の URL をクロール対象としません。 クロール対象とする URL が指定されていて も、ここでの指定が優先されます。