[fess-user 301] Re: インデックスの作成が停止します

Back to archive index

Sugano ganos****@gmail*****
2010年 7月 21日 (水) 00:24:16 JST


お世話になってます。
すがのです。

先ほど1点気がついた点があったので、
とりあえず参考までに報告しておきます。

ご存知かもしれませんが、本現象の原因となっている「xlsx」は、
デフォルトでデータ圧縮機能(zip相当)があることを思い出しまし
た。
(docx,pptxなど、他のOffice2007形式ファイルも対象)

なので、今回のExcelファイルは、ほぼ全部テキストデータであり、
テキストデータの圧縮率は非常に高いため、8MB程度のExcelファイ
ルでも、実質は数百MB相当のテキストデータを、クロール側で読み
込んでいる可能性があると思います。

上記、参考になれば幸いです。
> ----Original Message----
> Tue, 20 Jul 2010 22:54:42 +0900
> From:     Sugano <ganos****@gmail*****>
> To:       fess-****@lists*****
> Cc:       
> Subject:  Re: [fess-user 297] Re:インデックスの作成が停止し
>           ます
> 

> お世話になってます。
> すがのです。
> 
> 本件ですが、原因が判明して、特定の条件を満たしたExcelファイ
> ル(xlsx)が原因で、メモリエラーが発生していたことがわかりまし
> た。
> 
> 経緯を説明しますと、まず、maxDocumentCacheSizeを10→5→2と変
> 更して何度か再実行しても現象は変わりませんでした。
> 
> しかし、毎回約1万ファイル程度処理した時点で、ほぼ同様のメモ
> リエラーが発生しているようだったので、特定のファイルが原因で
> はないかと想定して調査したところ、特定のExcelファイル(xlsx)
> を読み込んだときに、使用メモリが10秒程度で急増(1G以上増加)し
> て、メモリエラーが発生したことがわかりました。
> 
> その特定のExcelファイルですが、ファイルサイズは8MB程度なので
> すが、中のデータ量がDBみたいに多く(項目20列程度のデータが約7
> 万行)、このExcelファイルの中のデータを全て読み取ろうとして、
> メモリが枯渇した可能性があると想定しております。
> ※このファイル1つのみをピンポイントでクロールに読み込ませて
>  テストしたところ、使用メモリが急増してエラーが発生しました。
> 
> さしあたり、このファイル自体は、クロール対象から除外すること
> で、一時的な回避はできたのですが、同じファイルサーバの中に、
> 似たようなExcelファイルがいくつか存在している様で、本日3回ほ
> どメモリエラーで異常終了して、クロール処理を完了できない状態
> となっております。
> (20〜40列・6〜8万行・数MB程度のxlsxファイルを、現時点で3つほ
> どエラーの都度発見しており(※もっとある可能性大)、その度に、
> 原因xlsxファイルを検索除外対象にする作業を繰り返している状態
> です)
> 
> 上記、エラー発生する都度、検索除外対象とするのは効率が悪いの
> で、何とか回避したいと思っておりますが、何か良い方法などはあ
> りますでしょうか?
> (特定のファイルでメモリエラーが発生しても、クロール処理が継
> 続して正常稼動するのが理想ですが、プログラム改修による対応は
> 困難でしょうか?)
> 
> 上記、アドバイスなどがありましたら、ご回答をお願いいたします。
> 以上、よろしくお願いします。
> > ----Original Message----
> > Sun, 18 Jul 2010 21:26:01 +0900
> > From:     Sugano <ganos****@gmail*****>
> > To:       fess-****@lists*****
> > Cc:       
> > Subject:  Re: [fess-user 297] Re:インデックスの作成が停止し
> >           ます
> > 
> 
> > お世話になってます。
> > すがのです。
> > 
> > 本件、了解です!
> > 連休明けにでも試してみます!
> > 
> > ご回答ありがとうございました!
> > > ----Original Message----
> > > Sun, 18 Jul 2010 07:48:35 +0900
> > > From:     Shinsuke Sugaya <shins****@yahoo*****>
> > > Reply-To: fess-****@lists*****
> > > To:       fess-****@lists*****
> > > Subject:  [fess-user 297] Re:インデックスの作成が停止します
> > > 
> > 
> > > 菅谷です。
> > > 
> > > >  (CPU:Core 2 Duo 2GHz、メモリ:1.5GB)
> > > 
> > > この環境ですと、Fess 的には mx を 512m くらいが
> > > 上限な気がしますので、1 回あたりの Solr に送る
> > > ドキュメント数を下げるのが良い気がします。
> > > webapps/fess/WEB-INF/cmd/resources/app.dicon
> > > で
> > > 
> > >     <component name="indexUpdater"
> > > class="jp.sf.fess.solr.IndexUpdater" instance="prototype">
> > >         <property name="maxDocumentCacheSize">5</property>
> > >     </component>
> > > 
> > > というように maxDocumentCacheSize を下げることが
> > > できます。デフォルトでは 1 回で 10 ドキュメントを
> > > Solr に送ります。
> > > 
> > > shinsuke
> > > 
> > > 2010年7月17日11:21 Sugano <ganos****@gmail*****>:
> > > > お世話になってます。
> > > > すがのです。
> > > >
> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、
> > > >> > SolrDB
> > > >> > へ
> > > >> > 手動で登録する方法(機能など)はありませんでしょうか?
> > > >>
> > > >> 現状、ないです。クロールデータについては
> > > >> パフォーマンスに大きな影響を与えるので
> > > >> 消せるときに消す感じにしています。ただ
> > > >> 今回のように例外的にクロールを抜けるような
> > > >> 場合に残せるかどうかは検討してみます。
> > > > 了解しました。
> > > > 是非、お願いします。
> > > >
> > > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出
> > > >> > 力
> > > >> > さ
> > > >> > れ
> > > >> > ていませんでした。他のログはこれから調べます。
> > > >>
> > > >> 最新の環境であれば、fess_crawler.out が
> > > >> どうなっているかがポイントになるかと思います。
> > > > fess_crawler.outを調べたところ、添付ファイル(fess_crawler.
> > > > outのログを一部抜粋、一部ファイルパスの修正有)のように
> > > > OutOfMemory エラーが発生していたことがわかりました。
> > > >
> > > > 下記の設定は既にしているのですが、それでも発生するようで
> > > > す。
> > > > http://fess.sourceforge.jp/ja/3.0/config/memory-config.
> > > > html
> > > >
> > > > ちなみに、当方の環境・状況は以下のとおりです。
> > > >
> > > > ●環境
> > > > ・WindowsXP SP3に搭載して試用・検証中
> > > >  (CPU:Core 2 Duo 2GHz、メモリ:1.5GB)
> > > > ・JDK 6 Update 21
> > > > ・fess-server-3.1.1 or 4.0.0SNAPSHOT
> > > >  (どちらでも発生するようです)
> > > > ・メモリ関連設定:上記リンクと同じ設定
> > > >
> > > > ●クロール設定
> > > > ・対象ドキュメント: ファイルサーバ上のファイル 約6万件
> > > > ・同時実行のクロール設定数:1
> > > > ・ドキュメント数毎にコミット:500
> > > > ・スレッド数:3
> > > > ・間隔:1000ミリ秒
> > > >
> > > > ●状況
> > > > 約1万ドキュメントを処理したあたりで、メモリエラー発生
> > > > ※エラー発生後は、延々とクロール処理のみが行われて、
> > > >  SolrDBへの登録処理が行われない状態
> > > > ※かなり高い確率(現時点100%)で現象が再発。
> > > >
> > > >
> > > > 上記、メモリ関連設定の再チューニングなどで回避は可能なの
> > > > で
> > > > し
> > > > ょうか?
> > > >
> > > > 以上、よろしくお願いします。
> > > >> ----Original Message----
> > > >> Fri, 16 Jul 2010 06:33:00 +0900
> > > >> From:     Shinsuke Sugaya <shins****@yahoo*****>
> > > >> Reply-To: fess-****@lists*****
> > > >> To:       fess-****@lists*****
> > > >> Subject:  [fess-user 290] Re:インデックスの作成が停止し
> > > >> ま
> > > >> す
> > > >>
> > > >
> > > >> 菅谷です。
> > > >>
> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、
> > > >> > SolrDB
> > > >> > へ
> > > >> > 手動で登録する方法(機能など)はありませんでしょうか?
> > > >>
> > > >> 現状、ないです。クロールデータについては
> > > >> パフォーマンスに大きな影響を与えるので
> > > >> 消せるときに消す感じにしています。ただ
> > > >> 今回のように例外的にクロールを抜けるような
> > > >> 場合に残せるかどうかは検討してみます。
> > > >>
> > > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出
> > > >> > 力
> > > >> > さ
> > > >> > れ
> > > >> > ていませんでした。他のログはこれから調べます。
> > > >>
> > > >> 最新の環境であれば、fess_crawler.out が
> > > >> どうなっているかがポイントになるかと思います。
> > > >>
> > > >> よろしくお願いいたします。
> > > >>
> > > >> shinsuke
> > > >>
> > > >>
> > > >> 2010年7月16日1:17 Sugano <ganos****@gmail*****>:
> > > >> > 初めまして、すがのと申します。
> > > >> >
> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、
> > > >> > SolrDB
> > > >> > へ
> > > >> > 手動で登録する方法(機能など)はありませんでしょうか?
> > > >> > (クロール実行中もしくはクロール停止時に手動実行)
> > > >> >
> > > >> > というのも、私のところでも桑田さんとほぼ同様の現象が発
> > > >> > 生
> > > >> > し
> > > >> > て
> > > >> > おり、
> > > >> >> クローラープロセスが実行中にも関わらず、ドキュメント
> > > >> >> 数
> > > >> >> が
> > > >> >> 増
> > > >> >> 加しなくなります。
> > > >> >> システム設定画面で何度が停止->実行を繰り返しましたが
> > > >> >> 状
> > > >> >> 況
> > > >> >> が
> > > >> >> 変わりません。
> > > >> >
> > > >> > 具体的には、以下2つの現象のいずれかが発生することが多
> > > >> > く、
> > > >> >
> > > >> > 事象1.クローラプロセスが稼働中にもかかわらず、クロー
> > > >> > ラ
> > > >> > 側
> > > >> > DB
> > > >> > (\webapp\fess\WEB-INF\db)やSolrDBへの登録が行われない。
> > > >> >
> > > >> > 事象2.クローラ側DB(\webapp\fess\WEB-INF\db)への登録
> > > >> > は
> > > >> > さ
> > > >> > れ
> > > >> > 続けるが、SolrDBへの登録が行われなず、クローラ側DBのみ
> > > >> > が
> > > >> > 増
> > > >> > え
> > > >> > 続ける。
> > > >> >
> > > >> > 上記の現象発生後に、クローラで収集したSolrDBへの未登録
> > > >> > 情
> > > >> > 報
> > > >> > を
> > > >> > 破棄するのはもったいないので、収集した情報をSolrDBへ手
> > > >> > 動
> > > >> > 登
> > > >> > 録
> > > >> > する手段を知りたいと考えております。
> > > >> > (クロールを再度起動すると、前回収集した情報がすべて消
> > > >> > え
> > > >> > て
> > > >> > し
> > > >> > まい、事象2で数万件分の情報が溜まっていたとしても全て
> > > >> > ク
> > > >> > リ
> > > >> > ア
> > > >> > されてしまうため、クリアされずにDB登録する方法が知りた
> > > >> > い
> > > >> > で
> > > >> > す。)
> > > >> >
> > > >> > ちなみに、本現象の原因については、下記を参考にして現在
> > > >> > 調
> > > >> > 査
> > > >> > 中
> > > >> > ですが、現時点では原因は特定できていません。
> > > >> >> おそらく crawler.out か catalina.out などに出力されて
> > > >> >> いるかと思います。以下を参照してみてください。
> > > >> >>
> > > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.html
> > > >> >>
> > > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出
> > > >> > 力
> > > >> > さ
> > > >> > れ
> > > >> > ていませんでした。他のログはこれから調べます。
> > > >> > ※ファイルパスの長さが260字以上(WindowsのMAX_PATH値以
> > > >> > 上)
> > > >> > の
> > > >> > デ
> > > >> > ィレクトリ・ファイルもあるため、それが原因の一つの可能
> > > >> > 性
> > > >> > も
> > > >> > 有
> > > >> > り?
> > > >> > ※上記、もう少し調べてわからないようであれば、再度詳細
> > > >> > な
> > > >> > 情
> > > >> > 報
> > > >> > をお知らせします。
> > > >> >
> > > >> > 以上、よろしくお願い致します。
> > > >> >
> > > >> >> 菅谷です。
> > > >> >>
> > > >> >> おそらく crawler.out か catalina.out などに出力されて
> > > >> >> いるかと思います。以下を参照してみてください。
> > > >> >>
> > > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.html
> > > >> >>
> > > >> >> よろしくお願いいたします。
> > > >> >>
> > > >> >> shinsuke
> > > >> >>
> > > >> >>
> > > >> >> 2010年7月14日16:53 Tetsutomo Kuwata <fj.kuwata @ 
> > > >> >> gmail.
> > > >> >> com>:
> > > >> >> 初めまして、桑田と申します。
> > > >> >>
> > > >> >> この度始めてFessを導入しインデックス作成を実行してい
> > > >> >> る
> > > >> >> と
> > > >> >> こ
> > > >> >> ろなのですが
> > > >> >> クローラープロセスが実行中にも関わらず、ドキュメント
> > > >> >> 数
> > > >> >> が
> > > >> >> 増
> > > >> >> 加しなくなります。
> > > >> >> システム設定画面で何度が停止->実行を繰り返しましたが
> > > >> >> 状
> > > >> >> 況
> > > >> >> が
> > > >> >> 変わりません。
> > > >> >> どの辺を調べれば原因がわかりますでしょうか。
> > > >> >>
> > > >> >> 環境
> > > >> >> Windows Server 2003 R2
> > > >> >> JDK 6 Update 20
> > > >> >> fess-server-3.1.1(サービスとして登録)
> > > >> >>
> > > >> >> 対象ドキュメント: ファイルシステム 23万件
> > > >> >> 現在のドキュメント数: 4万件
> > > >> >>
> > > >> >>
> > > >> >> 以上、よろしくお願い致します。
> > > >> >>
> > > >> >> _______________________________________________
> > > >> >> Fess-user mailing list
> > > >> >> Fess-****@lists*****
> > > >> >> http://lists.sourceforge.jp/mailman/listinfo/fess-
> > > >> >> user
> > > >> >>
> > > >> >
> > > >> > _______________________________________________
> > > >> > Fess-user mailing list
> > > >> > Fess-****@lists*****
> > > >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user
> > > >> >
> > > >>
> > > >> _______________________________________________
> > > >> Fess-user mailing list
> > > >> Fess-****@lists*****
> > > >> http://lists.sourceforge.jp/mailman/listinfo/fess-user
> > > >
> > > >
> > > > _______________________________________________
> > > > Fess-user mailing list
> > > > Fess-****@lists*****
> > > > http://lists.sourceforge.jp/mailman/listinfo/fess-user
> > > >
> > > >
> > > 
> > > _______________________________________________
> > > Fess-user mailing list
> > > Fess-****@lists*****
> > > http://lists.sourceforge.jp/mailman/listinfo/fess-user




Fess-user メーリングリストの案内
Back to archive index