Shinsuke Sugaya
shins****@yahoo*****
2010年 2月 26日 (金) 09:56:15 JST
菅谷です。 クローラのプロキシの設定方法のドキュメントが なかったみたいです(すいません)。設定方法は webapps/fess/WEB-INF/classes/s2robot_client.dicon を作成して <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE components PUBLIC "-//SEASAR//DTD S2Container 2.4//EN" "http://www.seasar.org/dtd/components24.dtd"> <components> <include path="s2robot_robotstxt.dicon"/> <include path="s2robot_contentlength.dicon"/> <component name="httpClient" class="org.seasar.robot.client.http.CommonsHttpClient" instance="prototype"> <property name="cookiePolicy">@org.apache.commons.httpclient.cookie.CookiePolicy @ BROWSER_COMPATIBILITY</property> <property name="proxyHost">"hostname"</property> <property name="proxyPort">8888</property> <property name="proxyCredentials"> <component class="org.apache.commons.httpclient.UsernamePasswordCredentials"> <arg>"username"</arg> <arg>"password"</arg> </component> </property> </component> <component name="fsClient" class="org.seasar.robot.client.fs.FileSystemClient" instance="prototype"> <property name="charset">"UTF-8"</property> </component> <component name="clientFactory" class="org.seasar.robot.client.S2RobotClientFactory" instance="prototype"> <initMethod name="addClient"> <arg>{"http:.*", "https:.*"}</arg> <arg>httpClient</arg> </initMethod> <initMethod name="addClient"> <arg>"file:.*"</arg> <arg>fsClient</arg> </initMethod> </component> </components> のようにすると、良いと思います。ウェブ認証の設定は サイト側の認証になりますので、プロキシのものとは 別物になります。 shinsuke 2010年2月25日21:10 Yoshimitsu Aoyagi <y-aoy****@hitac*****>: > 青柳@日立ソフトです。 > > 社内のWebサーバをクロールしているのですが、プロキシ経由でアクセスできず、 > 403が返って終了してしまいます。ちなみにウェブ認証の設定でプロキシサーバ > を設定してますが、これはプロキシとは別なのでしょうか。 > > 設定方法などご教授頂けるとありがたいです。 > > #ちなみに、web.xmlでorg.seasar.robot.client.http.CommonsHttpClient.proxyHost、proxyPort > #を設定すると、fessサーバ自体がアクセス不能になります。 > > > --- 以下、fess.out(*****でホスト名を隠してます) > 2010-02-25 20:51:54,823 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Starting indexUpdater. > 2010-02-25 20:51:55,160 [Robot-20100225205149-1-2] INFO org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL:http://****/ > 2010-02-25 20:51:55,353 [Robot-20100225205149-1-2] INFO org.seasar.robot.client.http.CommonsHttpClient - Checking URL:http://*****/robots.txt > 2010-02-25 20:52:06,663 [Robot-20100225205149-1-2] INFO org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL: http://go.microsoft.com/fwlink/?linkid=8180 > 2010-02-25 20:52:06,678 [Robot-20100225205149-1-2] INFO org.seasar.robot.client.http.CommonsHttpClient - Checking URL: http://go.microsoft.com/robots.txt > 2010-02-25 20:52:06,696 [Robot-20100225205149-1-2] INFO org.seasar.robot.client.http.CommonsHttpClient - Could not process http://go.microsoft.com/robots.txt. go.microsoft.com > 2010-02-25 20:52:06,697 [Robot-20100225205149-1-2] INFO org.seasar.robot.helper.impl.LogHelperImpl - Unknown host(go.microsoft.com): http://go.microsoft.com/fwlink/?linkid=8180 > 2010-02-25 20:52:58,811 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Processing documents in IndexUpdater queue. > 2010-02-25 20:52:58,822 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 1. The processing size is 1. The execution time is 11ms. > 2010-02-25 20:52:58,822 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://*****/ > 2010-02-25 20:52:58,822 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Skipped. The response code is 403. > 2010-02-25 20:52:58,833 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Updated 1 access results. The execution time is 11ms. > 2010-02-25 20:52:58,833 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Getting documents in IndexUpdater queue. > 2010-02-25 20:52:58,834 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 0. The processing size is 0. The execution time is 1ms. > 2010-02-25 20:52:58,834 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Processed documents in IndexUpdater queue. > 2010-02-25 20:54:02,247 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Processing documents in IndexUpdater queue. > 2010-02-25 20:54:02,249 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 0. The processing size is 0. The execution time is 1ms. > 2010-02-25 20:54:02,249 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Processed documents in IndexUpdater queue. > 2010-02-25 20:54:08,460 [main] INFO jp.sf.fess.helper.WebIndexHelper - [EXEC TIME] crawling time: 133718ms > > _______________________________________________ > Fess-user mailing list > Fess-****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/fess-user >