[fess-user 966] Re: クロール対象とするパスの取り扱いについて

Back to archive index

Shinsuke Sugaya shins****@yahoo*****
2015年 2月 26日 (木) 11:06:22 JST


菅谷です。

クロール対象とするパスに設定すると、それ以外が
*クロール*の対象外になります。ですので、txt以外は
クロールしないため、URLに明示的に指定しなければ
取得することはありません。おそらく実施されたいことは
検索の対象とするパスに記述することかと思います。
これにより、URLに記述したポイントからクロールして
txtだけをインデックスすることになります。

shinsuke



2015年2月21日 17:32 斎藤 <nsait****@msk-w*****>:
> 斎藤です。
>
>  お世話になります。
>
>  「クロール対象とするパス」の指定で、正規表現のパスパターンを指定しているのですが、
> クロール対象と認識してくれません。
>  逆に、「クロール対象から除外するパス」に同じ内容を指定してみたら、対象外と認識してく れます。
>  「クロール対象とするパス」の動作が思うように動作していない様に感じるのですが、
> なにか間違いがあるのでしょうか?
>
> 1)パターン1
>  「クロール対象とするパス」に以下の設定を行いました。
>  .*\.txt$
>
>  この時のログは以下の通りです。
>
> 2015-02-21 17:02:40,431 [WebFsCrawler] INFO  Included Path: .*\.txt$
> 2015-02-21 17:03:40,544 [IndexUpdater] INFO  Processing 0/0 docs (DB: 19ms)
> 2015-02-21 17:04:40,528 [IndexUpdater] INFO  Processing 0/0 docs (DB: 3ms)
> 2015-02-21 17:05:40,528 [IndexUpdater] INFO  Processing 0/0 docs (DB: 2ms)
>
> 2)パターン2
>  逆に、「クロール対象から除外するパス」に同じ内容の設定を入れました。
>  .*\.txt$
>
> 2015-02-21 17:11:40,867 [WebFsCrawler] INFO  Excluded Path: .*\.txt$
> 2015-02-21 17:11:41,061 [Robot-20150221171137-1-3] INFO  Crawling URL:
> smb://hogehoge/share/P14/f/P_HDD/test/
> 2015-02-21 17:11:41,247 [Robot-20150221171137-1-3] INFO  Crawling URL:
> smb://hogehoge/share/P14/f/P_HDD/test/2-2.jpg
>
>
>  その他気が付いたこととして、パターン1でクロール対象を指定した際に認識されなかった
> 訳ですが、対象となるパスが存在しない場合にも拘わらず、やたらと長い時間クロールを
> 行っていました。
>  対象となるファイルが無いのに時間が掛かっている理由がよくわかりません。
>  対象フォルダーに保存しているファイルは100KB程度の小さなファイル2本(jpgとtxt)だけです。
>
>  正規表現が間違っているとしたら、パターン2が正しく動作している意味が解らず、
> 悩んでいます。
>
> 以上
>
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>



Fess-user メーリングリストの案内
Back to archive index