Shinsuke Sugaya
shins****@yahoo*****
2015年 2月 26日 (木) 11:06:22 JST
菅谷です。 クロール対象とするパスに設定すると、それ以外が *クロール*の対象外になります。ですので、txt以外は クロールしないため、URLに明示的に指定しなければ 取得することはありません。おそらく実施されたいことは 検索の対象とするパスに記述することかと思います。 これにより、URLに記述したポイントからクロールして txtだけをインデックスすることになります。 shinsuke 2015年2月21日 17:32 斎藤 <nsait****@msk-w*****>: > 斎藤です。 > > お世話になります。 > > 「クロール対象とするパス」の指定で、正規表現のパスパターンを指定しているのですが、 > クロール対象と認識してくれません。 > 逆に、「クロール対象から除外するパス」に同じ内容を指定してみたら、対象外と認識してく れます。 > 「クロール対象とするパス」の動作が思うように動作していない様に感じるのですが、 > なにか間違いがあるのでしょうか? > > 1)パターン1 > 「クロール対象とするパス」に以下の設定を行いました。 > .*\.txt$ > > この時のログは以下の通りです。 > > 2015-02-21 17:02:40,431 [WebFsCrawler] INFO Included Path: .*\.txt$ > 2015-02-21 17:03:40,544 [IndexUpdater] INFO Processing 0/0 docs (DB: 19ms) > 2015-02-21 17:04:40,528 [IndexUpdater] INFO Processing 0/0 docs (DB: 3ms) > 2015-02-21 17:05:40,528 [IndexUpdater] INFO Processing 0/0 docs (DB: 2ms) > > 2)パターン2 > 逆に、「クロール対象から除外するパス」に同じ内容の設定を入れました。 > .*\.txt$ > > 2015-02-21 17:11:40,867 [WebFsCrawler] INFO Excluded Path: .*\.txt$ > 2015-02-21 17:11:41,061 [Robot-20150221171137-1-3] INFO Crawling URL: > smb://hogehoge/share/P14/f/P_HDD/test/ > 2015-02-21 17:11:41,247 [Robot-20150221171137-1-3] INFO Crawling URL: > smb://hogehoge/share/P14/f/P_HDD/test/2-2.jpg > > > その他気が付いたこととして、パターン1でクロール対象を指定した際に認識されなかった > 訳ですが、対象となるパスが存在しない場合にも拘わらず、やたらと長い時間クロールを > 行っていました。 > 対象となるファイルが無いのに時間が掛かっている理由がよくわかりません。 > 対象フォルダーに保存しているファイルは100KB程度の小さなファイル2本(jpgとtxt)だけです。 > > 正規表現が間違っているとしたら、パターン2が正しく動作している意味が解らず、 > 悩んでいます。 > > 以上 > > > _______________________________________________ > Fess-user mailing list > Fess-****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/fess-user >