[fess-user 304] Re: インデックスの作成が停止します

Back to archive index

Shinsuke Sugaya shins****@yahoo*****
2010年 7月 22日 (木) 09:38:04 JST


菅谷です。

s2robot_contentlength.dicon は

<component name="contentLengthHelper"
class="org.seasar.robot.helper.ContentLengthHelper"
instance="singleton" >
   <property name="defaultMaxLength">10485760L</property><!-- 10M -->
   <initMethod name="addMaxLength">
       <arg>"text/html"</arg>
       <arg>2621440L</arg><!-- 2.5M -->
   </initMethod>
   <initMethod name="addMaxLength">
       <arg>"application/vnd.openxmlformats-officedocument.spreadsheetml.sheet"</arg>
       <arg>2621440L</arg><!-- 2.5M -->
   </initMethod>
</component>

でお願いします。

shinsuke


2010年7月21日20:28 Sugano <ganos****@gmail*****>:
> お世話になります。
> 菅野です。
>
>> zipについては Apache Tika ではzipボム対策を
>> していると思いますが、Office2007系のファイルも
>> Apache Tika で何か対応してもらう必要があるかと
>> 思います。Fess としてはOutOfMemoryになるような
>> 場合は対象のファイルをブラックリストのようなところに
>> 登録して除外できるようにする方向で考えたいと
>> 思います。ですので、申し訳ありませんが、現状では
>> 見つけたものを手動で除外するしかないと思います。
>> よろしくお願いいたします。
> 上記、了解しました。
>
> 少し対策を考えてみたのですが、xlsx形式のファイルは、クロール
> 対象となるファイルサイズの上限を下げてみるのが良いかと考えた
> ので、(可能であれば)明日対応しようと思います。
>
> 対応としては、s2robot_contentlength.diconを以下のような感じ
> で修正すれば大丈夫でしょうか?(変更内容に自信は無いです)
>
> ※s2robot_contentlength.diconの修正内容
> <component name="contentLengthHelper" class="org.seasar.
> robot.helper.ContentLengthHelper" instance="singleton" >
>    <property name="defaultMaxLength">10485760L</property><!
> -- 10M -->
>    <initMethod name="addMaxLength">
>        <arg>"text/html"</arg>
>        <arg>2621440L</arg><!-- 2.5M -->
>        <arg>"application/vnd.openxmlformats-officedocument.
> spreadsheetml.sheet"</arg>
>        <arg>2621440L</arg><!-- 2.5M -->
>    </initMethod>
> </component>
>
> 以上、よろしくお願いします。
>> ----Original Message----
>> Wed, 21 Jul 2010 08:44:31 +0900
>> From:     Shinsuke Sugaya <shins****@yahoo*****>
>> Reply-To: fess-****@lists*****
>> To:       fess-****@lists*****
>> Subject:  [fess-user 302] Re:インデックスの作成が停止します
>>
>
>> 菅谷です。
>>
>> 情報をありがとうございます。
>> zipについては Apache Tika ではzipボム対策を
>> していると思いますが、Office2007系のファイルも
>> Apache Tika で何か対応してもらう必要があるかと
>> 思います。Fess としてはOutOfMemoryになるような
>> 場合は対象のファイルをブラックリストのようなところに
>> 登録して除外できるようにする方向で考えたいと
>> 思います。ですので、申し訳ありませんが、現状では
>> 見つけたものを手動で除外するしかないと思います。
>> よろしくお願いいたします。
>>
>> shinsuke
>>
>>
>> 2010年7月21日0:24 Sugano <ganos****@gmail*****>:
>> > お世話になってます。
>> > すがのです。
>> >
>> > 先ほど1点気がついた点があったので、
>> > とりあえず参考までに報告しておきます。
>> >
>> > ご存知かもしれませんが、本現象の原因となっている「xlsx」は、
>> > デフォルトでデータ圧縮機能(zip相当)があることを思い出しまし
>> > た。
>> > (docx,pptxなど、他のOffice2007形式ファイルも対象)
>> >
>> > なので、今回のExcelファイルは、ほぼ全部テキストデータであり、
>> > テキストデータの圧縮率は非常に高いため、8MB程度のExcelファイ
>> > ルでも、実質は数百MB相当のテキストデータを、クロール側で読み
>> > 込んでいる可能性があると思います。
>> >
>> > 上記、参考になれば幸いです。
>> >> ----Original Message----
>> >> Tue, 20 Jul 2010 22:54:42 +0900
>> >> From:     Sugano <ganos****@gmail*****>
>> >> To:       fess-****@lists*****
>> >> Cc:
>> >> Subject:  Re: [fess-user 297] Re:インデックスの作成が停止し
>> >>           ます
>> >>
>> >
>> >> お世話になってます。
>> >> すがのです。
>> >>
>> >> 本件ですが、原因が判明して、特定の条件を満たしたExcelファイ
>> >> ル(xlsx)が原因で、メモリエラーが発生していたことがわかりまし
>> >> た。
>> >>
>> >> 経緯を説明しますと、まず、maxDocumentCacheSizeを10→5→2と変
>> >> 更して何度か再実行しても現象は変わりませんでした。
>> >>
>> >> しかし、毎回約1万ファイル程度処理した時点で、ほぼ同様のメモ
>> >> リエラーが発生しているようだったので、特定のファイルが原因で
>> >> はないかと想定して調査したところ、特定のExcelファイル(xlsx)
>> >> を読み込んだときに、使用メモリが10秒程度で急増(1G以上増加)し
>> >> て、メモリエラーが発生したことがわかりました。
>> >>
>> >> その特定のExcelファイルですが、ファイルサイズは8MB程度なので
>> >> すが、中のデータ量がDBみたいに多く(項目20列程度のデータが約7
>> >> 万行)、このExcelファイルの中のデータを全て読み取ろうとして、
>> >> メモリが枯渇した可能性があると想定しております。
>> >> ※このファイル1つのみをピンポイントでクロールに読み込ませて
>> >> テストしたところ、使用メモリが急増してエラーが発生しました。
>> >>
>> >> さしあたり、このファイル自体は、クロール対象から除外すること
>> >> で、一時的な回避はできたのですが、同じファイルサーバの中に、
>> >> 似たようなExcelファイルがいくつか存在している様で、本日3回ほ
>> >> どメモリエラーで異常終了して、クロール処理を完了できない状態
>> >> となっております。
>> >> (20〜40列・6〜8万行・数MB程度のxlsxファイルを、現時点で3つほ
>> >> どエラーの都度発見しており(※もっとある可能性大)、その度に、
>> >> 原因xlsxファイルを検索除外対象にする作業を繰り返している状態
>> >> です)
>> >>
>> >> 上記、エラー発生する都度、検索除外対象とするのは効率が悪いの
>> >> で、何とか回避したいと思っておりますが、何か良い方法などはあ
>> >> りますでしょうか?
>> >> (特定のファイルでメモリエラーが発生しても、クロール処理が継
>> >> 続して正常稼動するのが理想ですが、プログラム改修による対応は
>> >> 困難でしょうか?)
>> >>
>> >> 上記、アドバイスなどがありましたら、ご回答をお願いいたします。
>> >> 以上、よろしくお願いします。
>> >> > ----Original Message----
>> >> > Sun, 18 Jul 2010 21:26:01 +0900
>> >> > From:     Sugano <ganos****@gmail*****>
>> >> > To:       fess-****@lists*****
>> >> > Cc:
>> >> > Subject:  Re: [fess-user 297] Re:インデックスの作成が停止
>> >> > し
>> >> >           ます
>> >> >
>> >>
>> >> > お世話になってます。
>> >> > すがのです。
>> >> >
>> >> > 本件、了解です!
>> >> > 連休明けにでも試してみます!
>> >> >
>> >> > ご回答ありがとうございました!
>> >> > > ----Original Message----
>> >> > > Sun, 18 Jul 2010 07:48:35 +0900
>> >> > > From:     Shinsuke Sugaya <shins****@yahoo*****>
>> >> > > Reply-To: fess-****@lists*****
>> >> > > To:       fess-****@lists*****
>> >> > > Subject:  [fess-user 297] Re:インデックスの作成が停止し
>> >> > > ます
>> >> > >
>> >> >
>> >> > > 菅谷です。
>> >> > >
>> >> > > >  (CPU:Core 2 Duo 2GHz、メモリ:1.5GB)
>> >> > >
>> >> > > この環境ですと、Fess 的には mx を 512m くらいが
>> >> > > 上限な気がしますので、1 回あたりの Solr に送る
>> >> > > ドキュメント数を下げるのが良い気がします。
>> >> > > webapps/fess/WEB-INF/cmd/resources/app.dicon
>> >> > > で
>> >> > >
>> >> > >     <component name="indexUpdater"
>> >> > > class="jp.sf.fess.solr.IndexUpdater" instance="prototype
>> >> > > ">
>> >> > >         <property name="maxDocumentCacheSize">5</
>> >> > > property>
>> >> > >     </component>
>> >> > >
>> >> > > というように maxDocumentCacheSize を下げることが
>> >> > > できます。デフォルトでは 1 回で 10 ドキュメントを
>> >> > > Solr に送ります。
>> >> > >
>> >> > > shinsuke
>> >> > >
>> >> > > 2010年7月17日11:21 Sugano <ganos****@gmail*****>:
>> >> > > > お世話になってます。
>> >> > > > すがのです。
>> >> > > >
>> >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、
>> >> > > >> > SolrDB
>> >> > > >> > へ
>> >> > > >> > 手動で登録する方法(機能など)はありませんでしょう
>> >> > > >> > か?
>> >> > > >>
>> >> > > >> 現状、ないです。クロールデータについては
>> >> > > >> パフォーマンスに大きな影響を与えるので
>> >> > > >> 消せるときに消す感じにしています。ただ
>> >> > > >> 今回のように例外的にクロールを抜けるような
>> >> > > >> 場合に残せるかどうかは検討してみます。
>> >> > > > 了解しました。
>> >> > > > 是非、お願いします。
>> >> > > >
>> >> > > >> > ※少なくとも、catalina.outにはエラーメッセージなど
>> >> > > >> > は出
>> >> > > >> > 力
>> >> > > >> > さ
>> >> > > >> > れ
>> >> > > >> > ていませんでした。他のログはこれから調べます。
>> >> > > >>
>> >> > > >> 最新の環境であれば、fess_crawler.out が
>> >> > > >> どうなっているかがポイントになるかと思います。
>> >> > > > fess_crawler.outを調べたところ、添付ファイル
>> >> > > > (fess_crawler.
>> >> > > > outのログを一部抜粋、一部ファイルパスの修正有)のように
>> >> > > > OutOfMemory エラーが発生していたことがわかりました。
>> >> > > >
>> >> > > > 下記の設定は既にしているのですが、それでも発生するよう
>> >> > > > で
>> >> > > > す。
>> >> > > > http://fess.sourceforge.jp/ja/3.0/config/memory-config.
>> >> > > > html
>> >> > > >
>> >> > > > ちなみに、当方の環境・状況は以下のとおりです。
>> >> > > >
>> >> > > > ●環境
>> >> > > > ・WindowsXP SP3に搭載して試用・検証中
>> >> > > >  (CPU:Core 2 Duo 2GHz、メモリ:1.5GB)
>> >> > > > ・JDK 6 Update 21
>> >> > > > ・fess-server-3.1.1 or 4.0.0SNAPSHOT
>> >> > > >  (どちらでも発生するようです)
>> >> > > > ・メモリ関連設定:上記リンクと同じ設定
>> >> > > >
>> >> > > > ●クロール設定
>> >> > > > ・対象ドキュメント: ファイルサーバ上のファイル 約6万件
>> >> > > > ・同時実行のクロール設定数:1
>> >> > > > ・ドキュメント数毎にコミット:500
>> >> > > > ・スレッド数:3
>> >> > > > ・間隔:1000ミリ秒
>> >> > > >
>> >> > > > ●状況
>> >> > > > 約1万ドキュメントを処理したあたりで、メモリエラー発生
>> >> > > > ※エラー発生後は、延々とクロール処理のみが行われて、
>> >> > > >  SolrDBへの登録処理が行われない状態
>> >> > > > ※かなり高い確率(現時点100%)で現象が再発。
>> >> > > >
>> >> > > >
>> >> > > > 上記、メモリ関連設定の再チューニングなどで回避は可能な
>> >> > > > の
>> >> > > > で
>> >> > > > し
>> >> > > > ょうか?
>> >> > > >
>> >> > > > 以上、よろしくお願いします。
>> >> > > >> ----Original Message----
>> >> > > >> Fri, 16 Jul 2010 06:33:00 +0900
>> >> > > >> From:     Shinsuke Sugaya <shins****@yahoo*****>
>> >> > > >> Reply-To: fess-****@lists*****
>> >> > > >> To:       fess-****@lists*****
>> >> > > >> Subject:  [fess-user 290] Re:インデックスの作成が停止
>> >> > > >> し
>> >> > > >> ま
>> >> > > >> す
>> >> > > >>
>> >> > > >
>> >> > > >> 菅谷です。
>> >> > > >>
>> >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、
>> >> > > >> > SolrDB
>> >> > > >> > へ
>> >> > > >> > 手動で登録する方法(機能など)はありませんでしょう
>> >> > > >> > か?
>> >> > > >>
>> >> > > >> 現状、ないです。クロールデータについては
>> >> > > >> パフォーマンスに大きな影響を与えるので
>> >> > > >> 消せるときに消す感じにしています。ただ
>> >> > > >> 今回のように例外的にクロールを抜けるような
>> >> > > >> 場合に残せるかどうかは検討してみます。
>> >> > > >>
>> >> > > >> > ※少なくとも、catalina.outにはエラーメッセージなど
>> >> > > >> > は出
>> >> > > >> > 力
>> >> > > >> > さ
>> >> > > >> > れ
>> >> > > >> > ていませんでした。他のログはこれから調べます。
>> >> > > >>
>> >> > > >> 最新の環境であれば、fess_crawler.out が
>> >> > > >> どうなっているかがポイントになるかと思います。
>> >> > > >>
>> >> > > >> よろしくお願いいたします。
>> >> > > >>
>> >> > > >> shinsuke
>> >> > > >>
>> >> > > >>
>> >> > > >> 2010年7月16日1:17 Sugano <ganos****@gmail*****>:
>> >> > > >> > 初めまして、すがのと申します。
>> >> > > >> >
>> >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、
>> >> > > >> > SolrDB
>> >> > > >> > へ
>> >> > > >> > 手動で登録する方法(機能など)はありませんでしょう
>> >> > > >> > か?
>> >> > > >> > (クロール実行中もしくはクロール停止時に手動実行)
>> >> > > >> >
>> >> > > >> > というのも、私のところでも桑田さんとほぼ同様の現象
>> >> > > >> > が発
>> >> > > >> > 生
>> >> > > >> > し
>> >> > > >> > て
>> >> > > >> > おり、
>> >> > > >> >> クローラープロセスが実行中にも関わらず、ドキュメン
>> >> > > >> >> ト
>> >> > > >> >> 数
>> >> > > >> >> が
>> >> > > >> >> 増
>> >> > > >> >> 加しなくなります。
>> >> > > >> >> システム設定画面で何度が停止->実行を繰り返しました
>> >> > > >> >> が
>> >> > > >> >> 状
>> >> > > >> >> 況
>> >> > > >> >> が
>> >> > > >> >> 変わりません。
>> >> > > >> >
>> >> > > >> > 具体的には、以下2つの現象のいずれかが発生すること
>> >> > > >> > が多
>> >> > > >> > く、
>> >> > > >> >
>> >> > > >> > 事象1.クローラプロセスが稼働中にもかかわらず、ク
>> >> > > >> > ロー
>> >> > > >> > ラ
>> >> > > >> > 側
>> >> > > >> > DB
>> >> > > >> > (\webapp\fess\WEB-INF\db)やSolrDBへの登録が行われ
>> >> > > >> > ない。
>> >> > > >> >
>> >> > > >> > 事象2.クローラ側DB(\webapp\fess\WEB-INF\db)への
>> >> > > >> > 登録
>> >> > > >> > は
>> >> > > >> > さ
>> >> > > >> > れ
>> >> > > >> > 続けるが、SolrDBへの登録が行われなず、クローラ側DB
>> >> > > >> > のみ
>> >> > > >> > が
>> >> > > >> > 増
>> >> > > >> > え
>> >> > > >> > 続ける。
>> >> > > >> >
>> >> > > >> > 上記の現象発生後に、クローラで収集したSolrDBへの未
>> >> > > >> > 登録
>> >> > > >> > 情
>> >> > > >> > 報
>> >> > > >> > を
>> >> > > >> > 破棄するのはもったいないので、収集した情報をSolrDB
>> >> > > >> > へ手
>> >> > > >> > 動
>> >> > > >> > 登
>> >> > > >> > 録
>> >> > > >> > する手段を知りたいと考えております。
>> >> > > >> > (クロールを再度起動すると、前回収集した情報がすべて
>> >> > > >> > 消
>> >> > > >> > え
>> >> > > >> > て
>> >> > > >> > し
>> >> > > >> > まい、事象2で数万件分の情報が溜まっていたとしても
>> >> > > >> > 全て
>> >> > > >> > ク
>> >> > > >> > リ
>> >> > > >> > ア
>> >> > > >> > されてしまうため、クリアされずにDB登録する方法が知
>> >> > > >> > りた
>> >> > > >> > い
>> >> > > >> > で
>> >> > > >> > す。)
>> >> > > >> >
>> >> > > >> > ちなみに、本現象の原因については、下記を参考にして
>> >> > > >> > 現在
>> >> > > >> > 調
>> >> > > >> > 査
>> >> > > >> > 中
>> >> > > >> > ですが、現時点では原因は特定できていません。
>> >> > > >> >> おそらく crawler.out か catalina.out などに出力さ
>> >> > > >> >> れて
>> >> > > >> >> いるかと思います。以下を参照してみてください。
>> >> > > >> >>
>> >> > > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.
>> >> > > >> >> html
>> >> > > >> >>
>> >> > > >> > ※少なくとも、catalina.outにはエラーメッセージなど
>> >> > > >> > は出
>> >> > > >> > 力
>> >> > > >> > さ
>> >> > > >> > れ
>> >> > > >> > ていませんでした。他のログはこれから調べます。
>> >> > > >> > ※ファイルパスの長さが260字以上(WindowsのMAX_PATH値
>> >> > > >> > 以
>> >> > > >> > 上)
>> >> > > >> > の
>> >> > > >> > デ
>> >> > > >> > ィレクトリ・ファイルもあるため、それが原因の一つの
>> >> > > >> > 可能
>> >> > > >> > 性
>> >> > > >> > も
>> >> > > >> > 有
>> >> > > >> > り?
>> >> > > >> > ※上記、もう少し調べてわからないようであれば、再度
>> >> > > >> > 詳細
>> >> > > >> > な
>> >> > > >> > 情
>> >> > > >> > 報
>> >> > > >> > をお知らせします。
>> >> > > >> >
>> >> > > >> > 以上、よろしくお願い致します。
>> >> > > >> >
>> >> > > >> >> 菅谷です。
>> >> > > >> >>
>> >> > > >> >> おそらく crawler.out か catalina.out などに出力さ
>> >> > > >> >> れて
>> >> > > >> >> いるかと思います。以下を参照してみてください。
>> >> > > >> >>
>> >> > > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.
>> >> > > >> >> html
>> >> > > >> >>
>> >> > > >> >> よろしくお願いいたします。
>> >> > > >> >>
>> >> > > >> >> shinsuke
>> >> > > >> >>
>> >> > > >> >>
>> >> > > >> >> 2010年7月14日16:53 Tetsutomo Kuwata <fj.kuwata @
>> >> > > >> >> gmail.
>> >> > > >> >> com>:
>> >> > > >> >> 初めまして、桑田と申します。
>> >> > > >> >>
>> >> > > >> >> この度始めてFessを導入しインデックス作成を実行して
>> >> > > >> >> い
>> >> > > >> >> る
>> >> > > >> >> と
>> >> > > >> >> こ
>> >> > > >> >> ろなのですが
>> >> > > >> >> クローラープロセスが実行中にも関わらず、ドキュメン
>> >> > > >> >> ト
>> >> > > >> >> 数
>> >> > > >> >> が
>> >> > > >> >> 増
>> >> > > >> >> 加しなくなります。
>> >> > > >> >> システム設定画面で何度が停止->実行を繰り返しました
>> >> > > >> >> が
>> >> > > >> >> 状
>> >> > > >> >> 況
>> >> > > >> >> が
>> >> > > >> >> 変わりません。
>> >> > > >> >> どの辺を調べれば原因がわかりますでしょうか。
>> >> > > >> >>
>> >> > > >> >> 環境
>> >> > > >> >> Windows Server 2003 R2
>> >> > > >> >> JDK 6 Update 20
>> >> > > >> >> fess-server-3.1.1(サービスとして登録)
>> >> > > >> >>
>> >> > > >> >> 対象ドキュメント: ファイルシステム 23万件
>> >> > > >> >> 現在のドキュメント数: 4万件
>> >> > > >> >>
>> >> > > >> >>
>> >> > > >> >> 以上、よろしくお願い致します。
>> >> > > >> >>
>> >> > > >> >> _______________________________________________
>> >> > > >> >> Fess-user mailing list
>> >> > > >> >> Fess-****@lists*****
>> >> > > >> >> http://lists.sourceforge.jp/mailman/listinfo/fess-
>> >> > > >> >> user
>> >> > > >> >>
>> >> > > >> >
>> >> > > >> > _______________________________________________
>> >> > > >> > Fess-user mailing list
>> >> > > >> > Fess-****@lists*****
>> >> > > >> > http://lists.sourceforge.jp/mailman/listinfo/fess-
>> >> > > >> > user
>> >> > > >> >
>> >> > > >>
>> >> > > >> _______________________________________________
>> >> > > >> Fess-user mailing list
>> >> > > >> Fess-****@lists*****
>> >> > > >> http://lists.sourceforge.jp/mailman/listinfo/fess-
>> >> > > >> user
>> >> > > >
>> >> > > >
>> >> > > > _______________________________________________
>> >> > > > Fess-user mailing list
>> >> > > > Fess-****@lists*****
>> >> > > > http://lists.sourceforge.jp/mailman/listinfo/fess-user
>> >> > > >
>> >> > > >
>> >> > >
>> >> > > _______________________________________________
>> >> > > Fess-user mailing list
>> >> > > Fess-****@lists*****
>> >> > > http://lists.sourceforge.jp/mailman/listinfo/fess-user
>> >
>> > _______________________________________________
>> > Fess-user mailing list
>> > Fess-****@lists*****
>> > http://lists.sourceforge.jp/mailman/listinfo/fess-user
>> >
>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-****@lists*****
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>




Fess-user メーリングリストの案内
Back to archive index