[fess-user 529] Re: Office文書内のオートシェイプの検索

Back to archive index

Hiroshi TATSUMI honek****@comet*****
2011年 10月 15日 (土) 14:36:09 JST


菅谷様

最新版POIでのご確認ありがとうございます。
CommandExtractorで作るほうが確実ということですね。
こちらを参考にしてやってみようと思います。
http://s2robot.sandbox.seasar.org/ja/extractor-guide.html

ちなみにですが、MIMEタイプごとにExtractorを変更できるということで良いでしょうか?
設定は以下のようになるのかと思いましたが、ドキュメントにこのあたりの記述が無いので、
念のため確認させてください。

・Wordのみ、別のExtractorでテキストを取得する場合の設定
--------------------------------------------------------
<components>
    <component name="tikaExtractor" 
class="org.seasar.robot.extractor.impl.TikaExtractor"/>

    <component name="wordCmdExtractor" 
class="org.seasar.robot.extractor.impl.CommandExtractor">
        <property name="command">"wordtotext $INPUT_FILE 
$OUTPUT_FILE"</property>
        <property name="outputEncoding">"UTF-8"</property>
    </component>

    <component name="extractorFactory" 
class="org.seasar.robot.extractor.ExtractorFactory">
        <initMethod name="addExtractor">
            <arg>{
"application/xml",
   ・・・省略・・・
"audio/x-aiff"
            }</arg>
            <arg>tikaExtractor</arg>
        </initMethod>
        <initMethod name="addExtractor">
            <arg>"application/msword"</arg>
            <arg>wordCmdExtractor</arg>
        </initMethod>
    </component>
</components>
--------------------------------------------------------

よろしくお願いいたします。

タツミ



-----Original Message----- 
From: Shinsuke Sugaya
Sent: Friday, October 14, 2011 9:11 PM
To: fess-****@lists*****
Subject: [fess-user 528] Re:Office文書内のオートシェイプの検索

菅谷です。

情報をありがとうございます。
最新の POI 3.8-beta4 にして確認してみたりも
しましたが、状況は変わらないようです。
必要であれば MS Office 系文書について、
CommandExtractor などに差し替えるなど
していただくのが良いと思います。
よろしくお願いいたします。

shinsuke


2011年10月13日7:27 Hiroshi TATSUMI <honek****@comet*****>:
> タツミと申します。初めてMLに投稿させていただきます。
>
> FessではOffice文書も検索できるということでしたので、
> Office文書内のオートシェイプの文字列も検索できるかどうかテストしていました。 
> 
> 結果は以下の通りとなり、一部のOffice文書のみ、検索できないことが分かりました。 
> 
>
> ・オートシェイプ内の文字列を検索できない
> -Word2003
> -Excel2007
> ・オートシェイプ内の文字列を検索できる
> -Excel2003
> -Word2007
> -PowerPoint2003
> -PowerPoint2007
> -Visio2003
> -Visio2007
>
> Word2003とExcel2007は使用頻度の高いドキュメントなのですが、
> これらのフォーマット中のオートシェイプを検索するためには、
> クロール部分の拡張が必要になるのでしょうか?
>
> Fessではクロール部分にApache Tikaを使っているとのことなので、
> その部分の拡張が必要なのかと思いましたが、
> すでに対応方法等が見えている場合には、その方法をご教授いただけると幸いです。 
> 
>
> よろしくお願いいたします。
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>
>

_______________________________________________
Fess-user mailing list
Fess-****@lists*****
http://lists.sourceforge.jp/mailman/listinfo/fess-user 




Fess-user メーリングリストの案内
Back to archive index