[fess-user 53] Re: クロール対象(外)URL と 検索対象(外)URL の使い方

Back to archive index

Masayuki Shibata mshib****@shima*****
2009年 12月 21日 (月) 21:28:15 JST


柴田@亀岡市です。

まだ微妙にわかっていないようで少し迷いがあります。

以下の (1)、(2) のところなのですが、当初 Allow → Deny の方向
に設定するのだと思い込んでいて、除外対象設定より対象設定が優先
される旨の記述と合わないなぁと思っておりました。

-----設定例ここまで-----
[URL]
'http://hostname/svn/'

[クロール対象とするURL]
現行: 'http://hostname/svn/.*' → ◎ 空に?(1)

[クロール対象から除外するURL]
'http://hostname/svn/NeedlessPrj1(|/.*)'
'http://hostname/svn/NeedlessPrj2(|/.*)'

[検索対象とするURL]
'.*\.doc$'

[検索対象から除外するURL]
現行: 空 → '.*' に (2)
-----設定例ここまで-----

その疑問は先にご説明していただいて Deny → Allow の方向で設定
して、いったん全部塞いでから穴をあけるのだと気づきましたので、
検索対象の方は、例えば拡張子 doc のファイルだけ検索したいとき
は、上記の設定 (2) でよさそうに思います。

迷っているのはクロール対象の方 (1) です。

塞ぎたいのは NeedlessPrj1 と NeedlessPrj2 だけで、ほかはクロー
ル対象にしたいので、Deny → Allow だとすると設定を空にしておく
のが正解だとは思うのですが、

http://fess.sourceforge.jp/ja/1.2/admin/webCrawlingConfig-guide.html
...の

「http://localhost/ 以下しかクロールしない場合は、クロール対象
とする URL に http://localhost/.* また (中略) と指定します。」

...が Allow → Deny で説明されているような気がするので、読んで
いてわからなくなりました。
#除外対象「.*\.png$」に対象 URL 「http://localhost/.*」が勝つ
#のなら「http://localhost/.*\.png$」は対象に含まれるのでは?

検索対象の方は Deny → Allow 順で、クロール対象の方は Allow →
Deny 順に解釈する (除外設定が優先) ということはありませんでし
ょうか?

だとすると現行の説明...
[クロール対象とする URL]
指定された正規表現の URL をクロールします。クロール除外対象とする URL と指定されていても、ここ
での指定が優先されます。 
[クロール対象から除外するURL]
指定された正規表現の URL をクロール対象としません。 

...は、以下のようになるのではないかという気がします。
[クロール対象とする URL]
指定された正規表現の URL をクロールします。
[クロール対象から除外するURL]
指定された正規表現の URL をクロール対象としません。 クロール対象とする URL が指定されていて
も、ここでの指定が優先されます。 




Fess-user メーリングリストの案内
Back to archive index