[fess-user 146] Re: プロキシ設定について

Back to archive index

Shinsuke Sugaya shins****@yahoo*****
2010年 2月 26日 (金) 09:56:15 JST


菅谷です。

クローラのプロキシの設定方法のドキュメントが
なかったみたいです(すいません)。設定方法は
webapps/fess/WEB-INF/classes/s2robot_client.dicon
を作成して

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE components PUBLIC "-//SEASAR//DTD S2Container 2.4//EN"
    "http://www.seasar.org/dtd/components24.dtd">
<components>
    <include path="s2robot_robotstxt.dicon"/>
    <include path="s2robot_contentlength.dicon"/>

    <component name="httpClient"
class="org.seasar.robot.client.http.CommonsHttpClient"
instance="prototype">
        <property
name="cookiePolicy">@org.apache.commons.httpclient.cookie.CookiePolicy @ BROWSER_COMPATIBILITY</property>
        <property name="proxyHost">"hostname"</property>
        <property name="proxyPort">8888</property>
        <property name="proxyCredentials">
            <component
class="org.apache.commons.httpclient.UsernamePasswordCredentials">
                <arg>"username"</arg>
                <arg>"password"</arg>
            </component>
        </property>
    </component>

    <component name="fsClient"
class="org.seasar.robot.client.fs.FileSystemClient"
instance="prototype">
        <property name="charset">"UTF-8"</property>
    </component>

    <component name="clientFactory"
class="org.seasar.robot.client.S2RobotClientFactory"
instance="prototype">
        <initMethod name="addClient">
            <arg>{"http:.*", "https:.*"}</arg>
            <arg>httpClient</arg>
        </initMethod>
        <initMethod name="addClient">
            <arg>"file:.*"</arg>
            <arg>fsClient</arg>
        </initMethod>
    </component>

</components>

のようにすると、良いと思います。ウェブ認証の設定は
サイト側の認証になりますので、プロキシのものとは
別物になります。

shinsuke


2010年2月25日21:10 Yoshimitsu Aoyagi <y-aoy****@hitac*****>:
> 青柳@日立ソフトです。
>
> 社内のWebサーバをクロールしているのですが、プロキシ経由でアクセスできず、
> 403が返って終了してしまいます。ちなみにウェブ認証の設定でプロキシサーバ
> を設定してますが、これはプロキシとは別なのでしょうか。
>
> 設定方法などご教授頂けるとありがたいです。
>
> #ちなみに、web.xmlでorg.seasar.robot.client.http.CommonsHttpClient.proxyHost、proxyPort
> #を設定すると、fessサーバ自体がアクセス不能になります。
>
>
> --- 以下、fess.out(*****でホスト名を隠してます)
> 2010-02-25 20:51:54,823 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Starting indexUpdater.
> 2010-02-25 20:51:55,160 [Robot-20100225205149-1-2] INFO  org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL:http://****/
> 2010-02-25 20:51:55,353 [Robot-20100225205149-1-2] INFO  org.seasar.robot.client.http.CommonsHttpClient - Checking URL:http://*****/robots.txt
> 2010-02-25 20:52:06,663 [Robot-20100225205149-1-2] INFO  org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL: http://go.microsoft.com/fwlink/?linkid=8180
> 2010-02-25 20:52:06,678 [Robot-20100225205149-1-2] INFO  org.seasar.robot.client.http.CommonsHttpClient - Checking URL: http://go.microsoft.com/robots.txt
> 2010-02-25 20:52:06,696 [Robot-20100225205149-1-2] INFO  org.seasar.robot.client.http.CommonsHttpClient - Could not process http://go.microsoft.com/robots.txt. go.microsoft.com
> 2010-02-25 20:52:06,697 [Robot-20100225205149-1-2] INFO  org.seasar.robot.helper.impl.LogHelperImpl - Unknown host(go.microsoft.com): http://go.microsoft.com/fwlink/?linkid=8180
> 2010-02-25 20:52:58,811 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Processing documents in IndexUpdater queue.
> 2010-02-25 20:52:58,822 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 1. The processing size is 1. The execution time is 11ms.
> 2010-02-25 20:52:58,822 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Indexing http://*****/
> 2010-02-25 20:52:58,822 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Skipped. The response code is 403.
> 2010-02-25 20:52:58,833 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Updated 1 access results. The execution time is 11ms.
> 2010-02-25 20:52:58,833 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Getting documents in IndexUpdater queue.
> 2010-02-25 20:52:58,834 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 0. The processing size is 0. The execution time is 1ms.
> 2010-02-25 20:52:58,834 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Processed documents in IndexUpdater queue.
> 2010-02-25 20:54:02,247 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Processing documents in IndexUpdater queue.
> 2010-02-25 20:54:02,249 [IndexUpdater] INFO  jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 0. The processing size is 0. The execution time is 1ms.
> 2010-02-25 20:54:02,249 [IndexUpdater] DEBUG jp.sf.fess.solr.IndexUpdater - Processed documents in IndexUpdater queue.
> 2010-02-25 20:54:08,460 [main] INFO  jp.sf.fess.helper.WebIndexHelper - [EXEC TIME] crawling time: 133718ms
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>




Fess-user メーリングリストの案内
Back to archive index