From honekichi19 @ comet.ocn.ne.jp Thu Oct 13 07:27:06 2011 From: honekichi19 @ comet.ocn.ne.jp (Hiroshi TATSUMI) Date: Thu, 13 Oct 2011 07:27:06 +0900 Subject: [fess-user 527] =?utf-8?b?T2ZmaWNl5paH5pu45YaF44Gu44Kq44O844OI44K344Kn44Kk44OX?= =?utf-8?b?44Gu5qSc57Si?= Message-ID: <2CB8222549C04D2284D19951E69B8B5B@Emperor> タツミと申します。初めてMLに投稿させていただきます。 FessではOffice文書も検索できるということでしたので、 Office文書内のオートシェイプの文字列も検索できるかどうかテストしていました。 結果は以下の通りとなり、一部のOffice文書のみ、検索できないことが分かりました。 ・オートシェイプ内の文字列を検索できない  ?Word2003  ?Excel2007 ・オートシェイプ内の文字列を検索できる  ?Excel2003  ?Word2007  ?PowerPoint2003  ?PowerPoint2007  ?Visio2003  ?Visio2007 Word2003とExcel2007は使用頻度の高いドキュメントなのですが、 これらのフォーマット中のオートシェイプを検索するためには、 クロール部分の拡張が必要になるのでしょうか? Fessではクロール部分にApache Tikaを使っているとのことなので、 その部分の拡張が必要なのかと思いましたが、 すでに対応方法等が見えている場合には、その方法をご教授いただけると幸いです。 よろしくお願いいたします。 -------------- next part -------------- HTML$B$NE:IU%U%!%$%k$rJ]4I$7$^$7$?(B... URL: http://lists.sourceforge.jp/mailman/archives/fess-user/attachments/20111013/a674f72c/attachment.htm From shinsuke @ yahoo.co.jp Fri Oct 14 21:11:59 2011 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 14 Oct 2011 21:11:59 +0900 Subject: [fess-user 528] Re: =?iso-2022-jp?b?T2ZmaWNlGyRCSjg9cUZiJE4lKiE8JUglNyUnJSQbKEI=?= =?iso-2022-jp?b?GyRCJVckTjghOncbKEI=?= In-Reply-To: <2CB8222549C04D2284D19951E69B8B5B@Emperor> References: <2CB8222549C04D2284D19951E69B8B5B@Emperor> Message-ID: 菅谷です。 情報をありがとうございます。 最新の POI 3.8-beta4 にして確認してみたりも しましたが、状況は変わらないようです。 必要であれば MS Office 系文書について、 CommandExtractor などに差し替えるなど していただくのが良いと思います。 よろしくお願いいたします。 shinsuke 2011年10月13日7:27 Hiroshi TATSUMI : > タツミと申します。初めてMLに投稿させていただきます。 > > FessではOffice文書も検索できるということでしたので、 > Office文書内のオートシェイプの文字列も検索できるかどうかテストしていました。 > 結果は以下の通りとなり、一部のOffice文書のみ、検索できないことが分かりました。 > > ・オートシェイプ内の文字列を検索できない >  −Word2003 >  −Excel2007 > ・オートシェイプ内の文字列を検索できる >  −Excel2003 >  −Word2007 >  −PowerPoint2003 >  −PowerPoint2007 >  −Visio2003 >  −Visio2007 > > Word2003とExcel2007は使用頻度の高いドキュメントなのですが、 > これらのフォーマット中のオートシェイプを検索するためには、 > クロール部分の拡張が必要になるのでしょうか? > > Fessではクロール部分にApache Tikaを使っているとのことなので、 > その部分の拡張が必要なのかと思いましたが、 > すでに対応方法等が見えている場合には、その方法をご教授いただけると幸いです。 > > よろしくお願いいたします。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > From honekichi19 @ comet.ocn.ne.jp Sat Oct 15 14:36:09 2011 From: honekichi19 @ comet.ocn.ne.jp (Hiroshi TATSUMI) Date: Sat, 15 Oct 2011 14:36:09 +0900 Subject: [fess-user 529] Re: =?utf-8?b?T2ZmaWNl5paH5pu45YaF44Gu44Kq44O844OI44K344Kn44Kk?= =?utf-8?b?44OX44Gu5qSc57Si?= In-Reply-To: References: <2CB8222549C04D2284D19951E69B8B5B@Emperor> Message-ID: 菅谷様 最新版POIでのご確認ありがとうございます。 CommandExtractorで作るほうが確実ということですね。 こちらを参考にしてやってみようと思います。 http://s2robot.sandbox.seasar.org/ja/extractor-guide.html ちなみにですが、MIMEタイプごとにExtractorを変更できるということで良いでしょうか? 設定は以下のようになるのかと思いましたが、ドキュメントにこのあたりの記述が無いので、 念のため確認させてください。 ・Wordのみ、別のExtractorでテキストを取得する場合の設定 -------------------------------------------------------- "wordtotext $INPUT_FILE $OUTPUT_FILE" "UTF-8" { "application/xml", ・・・省略・・・ "audio/x-aiff" } tikaExtractor "application/msword" wordCmdExtractor -------------------------------------------------------- よろしくお願いいたします。 タツミ -----Original Message----- From: Shinsuke Sugaya Sent: Friday, October 14, 2011 9:11 PM To: fess-user @ lists.sourceforge.jp Subject: [fess-user 528] Re:Office文書内のオートシェイプの検索 菅谷です。 情報をありがとうございます。 最新の POI 3.8-beta4 にして確認してみたりも しましたが、状況は変わらないようです。 必要であれば MS Office 系文書について、 CommandExtractor などに差し替えるなど していただくのが良いと思います。 よろしくお願いいたします。 shinsuke 2011年10月13日7:27 Hiroshi TATSUMI : > タツミと申します。初めてMLに投稿させていただきます。 > > FessではOffice文書も検索できるということでしたので、 > Office文書内のオートシェイプの文字列も検索できるかどうかテストしていました。 > > 結果は以下の通りとなり、一部のOffice文書のみ、検索できないことが分かりました。 > > > ・オートシェイプ内の文字列を検索できない > ?Word2003 > ?Excel2007 > ・オートシェイプ内の文字列を検索できる > ?Excel2003 > ?Word2007 > ?PowerPoint2003 > ?PowerPoint2007 > ?Visio2003 > ?Visio2007 > > Word2003とExcel2007は使用頻度の高いドキュメントなのですが、 > これらのフォーマット中のオートシェイプを検索するためには、 > クロール部分の拡張が必要になるのでしょうか? > > Fessではクロール部分にApache Tikaを使っているとのことなので、 > その部分の拡張が必要なのかと思いましたが、 > すでに対応方法等が見えている場合には、その方法をご教授いただけると幸いです。 > > > よろしくお願いいたします。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > _______________________________________________ Fess-user mailing list Fess-user @ lists.sourceforge.jp http://lists.sourceforge.jp/mailman/listinfo/fess-user From shinsuke @ yahoo.co.jp Sun Oct 16 07:04:57 2011 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Sun, 16 Oct 2011 07:04:57 +0900 Subject: [fess-user 530] Re: =?iso-2022-jp?b?T2ZmaWNlGyRCSjg9cUZiJE4lKiE8JUglNyUnJSQbKEI=?= =?iso-2022-jp?b?GyRCJVckTjghOncbKEI=?= In-Reply-To: References: <2CB8222549C04D2284D19951E69B8B5B@Emperor> Message-ID: 菅谷です。 > ちなみにですが、MIMEタイプごとにExtractorを変更できるということで良いでしょうか? はい、そのような感じで良いと思います。 shinsuke 2011年10月15日14:36 Hiroshi TATSUMI : > 菅谷様 > > 最新版POIでのご確認ありがとうございます。 > CommandExtractorで作るほうが確実ということですね。 > こちらを参考にしてやってみようと思います。 > http://s2robot.sandbox.seasar.org/ja/extractor-guide.html > > ちなみにですが、MIMEタイプごとにExtractorを変更できるということで良いでしょうか? > 設定は以下のようになるのかと思いましたが、ドキュメントにこのあたりの記述が無いので、 > 念のため確認させてください。 > > ・Wordのみ、別のExtractorでテキストを取得する場合の設定 > -------------------------------------------------------- > > class="org.seasar.robot.extractor.impl.TikaExtractor"/> > > class="org.seasar.robot.extractor.impl.CommandExtractor"> > "wordtotext $INPUT_FILE > $OUTPUT_FILE" > "UTF-8" > > > class="org.seasar.robot.extractor.ExtractorFactory"> > > { > "application/xml", > ・・・省略・・・ > "audio/x-aiff" > } > tikaExtractor > > > "application/msword" > wordCmdExtractor > > > > -------------------------------------------------------- > > よろしくお願いいたします。 > > タツミ > > > > -----Original Message----- > From: Shinsuke Sugaya > Sent: Friday, October 14, 2011 9:11 PM > To: fess-user @ lists.sourceforge.jp > Subject: [fess-user 528] Re:Office文書内のオートシェイプの検索 > > 菅谷です。 > > 情報をありがとうございます。 > 最新の POI 3.8-beta4 にして確認してみたりも > しましたが、状況は変わらないようです。 > 必要であれば MS Office 系文書について、 > CommandExtractor などに差し替えるなど > していただくのが良いと思います。 > よろしくお願いいたします。 > > shinsuke > > > 2011年10月13日7:27 Hiroshi TATSUMI : >> タツミと申します。初めてMLに投稿させていただきます。 >> >> FessではOffice文書も検索できるということでしたので、 >> Office文書内のオートシェイプの文字列も検索できるかどうかテストしていました。 >> >> 結果は以下の通りとなり、一部のOffice文書のみ、検索できないことが分かりました。 >> >> >> ・オートシェイプ内の文字列を検索できない >> −Word2003 >> −Excel2007 >> ・オートシェイプ内の文字列を検索できる >> −Excel2003 >> −Word2007 >> −PowerPoint2003 >> −PowerPoint2007 >> −Visio2003 >> −Visio2007 >> >> Word2003とExcel2007は使用頻度の高いドキュメントなのですが、 >> これらのフォーマット中のオートシェイプを検索するためには、 >> クロール部分の拡張が必要になるのでしょうか? >> >> Fessではクロール部分にApache Tikaを使っているとのことなので、 >> その部分の拡張が必要なのかと思いましたが、 >> すでに対応方法等が見えている場合には、その方法をご教授いただけると幸いです。 >> >> >> よろしくお願いいたします。 >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user >