[fess-user 417] Re: パスワード付きPDFのインデクシングについて

Back to archive index

Yoshimasa Iwase iwase****@gmail*****
2011年 1月 7日 (金) 19:38:06 JST


岩瀬です。お世話になっております。

パス付きPDFのインデクシングを、色々と試しているのですが、
まだ実現できておりません。

以下に実際に試した環境、手順、結果(ログ含)を記載しますので、
何か修正する点があれば、ご教授いただけますでしょうか。

<環境>
OS:Windows XP Pro SP3
Fess:4.0.0

<手順>
0. パスワード付きPDFを用意&配置。
 (今回は、[pdf password sample]で、検索エンジン上位に
表示されるサイトのパス付きPDFサンプルをDLして利用しております)

1. s2robot_extractor.diconの抽出。
\fess-server-4.0.0\webapps\fess\WEB-INF\lib
にある、「s2-robot-0.5.0.jar」を解凍して、
「s2robot_extractor.dicon」をコピーして、
\fess-server-4.0.0\webapps\fess\WEB-INF\classes
へ貼りつけする。

2. s2robot_extractor.diconのtikaExtractor部を修正。
(実際に利用したものを添付いたします)

3. クロールを開始する。


<結果>
・正常にインデクシングされておらず、検索にヒットしない。
・該当部分のクロールログは以下の通り。

[Robot-20110107130722-1-3] WARN
org.seasar.robot.helper.impl.LogHelperImpl - Crawling Access Exception
at file:////(..省略..)/XXXX.pdf
org.seasar.robot.RobotCrawlAccessException: Could not get a text from
file:////(..省略..)/XXXX.pdf
       at jp.sf.fess.transformer.AbstractFessFileTransformer.transform(AbstractFessFileTransformer.java:113)
       at org.seasar.robot.processor.impl.DefaultResponseProcessor.process(DefaultResponseProcessor.java:72)
       at org.seasar.robot.S2RobotThread.processResponse(S2RobotThread.java:341)
       at org.seasar.robot.S2RobotThread.run(S2RobotThread.java:180)
       at java.lang.Thread.run(Thread.java:619)
Caused by: org.seasar.robot.extractor.ExtractException: Could not
extract a content.
       at org.seasar.robot.extractor.impl.TikaExtractor.getText(TikaExtractor.java:250)
       at jp.sf.fess.transformer.AbstractFessFileTransformer.transform(AbstractFessFileTransformer.java:96)
       ... 4 more
Caused by: org.apache.tika.exception.TikaException: Unable to extract
PDF content
       at org.apache.tika.parser.pdf.PDF2XHTML.process(PDF2XHTML.java:58)
       at org.apache.tika.parser.pdf.PDFParser.parse(PDFParser.java:90)
       at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:197)
       at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:197)
       at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:137)
       at org.seasar.robot.extractor.impl.TikaExtractor.getText(TikaExtractor.java:136)
       ... 5 more
Caused by: org.apache.pdfbox.exceptions.WrappedIOException: Error
decrypting document, details:
       at org.apache.pdfbox.util.PDFTextStripper.writeText(PDFTextStripper.java:313)
       at org.apache.pdfbox.util.PDFTextStripper.getText(PDFTextStripper.java:241)
       at org.apache.tika.parser.pdf.PDF2XHTML.process(PDF2XHTML.java:53)
       ... 10 more
Caused by: org.apache.pdfbox.exceptions.CryptographyException: Error:
The supplied password does not match either the owner or user password
in the document.
       at org.apache.pdfbox.pdmodel.encryption.StandardSecurityHandler.decryptDocument(StandardSecurityHandler.java:231)
       at org.apache.pdfbox.pdmodel.PDDocument.openProtection(PDDocument.java:1088)
       at org.apache.pdfbox.pdmodel.PDDocument.decrypt(PDDocument.java:591)
       at org.apache.pdfbox.util.PDFTextStripper.writeText(PDFTextStripper.java:309)
       ... 12 more

上記のログ下段に、

> The supplied password does not match either the owner or user password in the document.

とありますが、「s2robot_extractor.dicon」には、
正しいパスワードを書いております。
(該当パスで、実際にAdobe Reader等ではファイルオープン可能)

したがって、パスワードに誤りはないと思いますので、
正常動作しない要因は以下のような可能性があるかと考えております。
・PDFBox自体にバグあり?
・PDFBoxまでPWが正常に受け渡しされていない?



再度のお願いとなりますが、何かこちらで対処できる方法があれば、
ご教授いただければと思います。

以上、恐れ入りますが、よろしくお願いいたします。


2010/12/9 Shinsuke Sugaya <shins****@yahoo*****>:
> 菅谷です。
>
> S2Robotのサイトが紛らわしいのが悪いのですが、
> 以下より最新 (0.5.0) の jar をご利用ください。
> 0.1.0 は古いため、差し替えると動かなくなると
> 思います。
>
> https://www.seasar.org/maven/maven2/org/seasar/robot/s2-robot/
>
> よろしくお願いいたします。
>
> shinsuke
>
>
> 2010年12月9日1:29 Yoshimasa Iwase <iwase****@gmail*****>:
>> 岩瀬です。お世話になっております。
>>
>> 先日、パス付きPDFのインデクシング方法をご教授いただきましたので、
>> 実際に試させていただきましたが、現状実現できておりません。
>>
>> 現状実施したこととしては、
>> 1. s2robot公式より、「s2-robot-0.1.0-src.zip」をDLし「s2robot_extractor.dicon」を抽出
>> 2. Fessのwebapps\fess\WEB-INF\classes に配置
>> 3. 以下の設定をtikaの設定部分に記述
>>
>> <component name="tikaExtractor"
>> class="org.seasar.robot.extractor.impl.TikaExtractor">
>>  <initMethod name="addPdfPassword">
>>  <arg>"*.pdf"</arg>
>>  <arg>"password"</arg>
>>  </initMethod>
>> </component>
>>
>> ですが、2終了の時点でクロールを実施すると、クロールが正常に動作していないようです。
>> 何か他ファイルに参照を追記する必要がございますでしょうか?
>> それとも、そもそもs2robot_extractorはそのまま使えないのでしょうか?
>> 他に必要な処理があるのであれば、恐れ入りますがご教授いただければ幸いです。
>>
>> 2010/11/6 Yoshimasa Iwase <iwase****@gmail*****>:
>>> 岩瀬です。
>>>
>>> どうもありがとうございました。
>>> 早速、実運用で試させていただきます!
>>>
>>> 2010/11/5 Shinsuke Sugaya <shins****@yahoo*****>:
>>>> 菅谷です。
>>>>
>>>>> 以下のようになると考えてよいでしょうか?
>>>>
>>>> はい。
>>>>
>>>>> それとも、"*.pdf"のようにワイルドカードが利用可能でしょうか?
>>>>
>>>> Java の正規表現で指定できるようにしました。
>>>>
>>>> shinsuke
>>>>
>>>>
>>>> 2010年11月4日23:21 Yoshimasa Iwase <iwase****@gmail*****>:
>>>>> 岩瀬です。
>>>>> 迅速な回答ありがとうございました。
>>>>>
>>>>> Passwordが同じ複数のファイルを対象とする場合は、
>>>>> 以下のようになると考えてよいでしょうか?
>>>>>
>>>>> <component name="tikaExtractor"
>>>>> class="org.seasar.robot.extractor.impl.TikaExtractor">
>>>>>  <initMethod name="addPdfPassword">
>>>>>   <arg>"hoge.pdf"</arg>
>>>>>   <arg>"password"</arg>
>>>>>  </initMethod>
>>>>>  <initMethod name="addPdfPassword">
>>>>>   <arg>"foobar.pdf"</arg>
>>>>>   <arg>"password"</arg>
>>>>>  </initMethod>
>>>>> </component>
>>>>>
>>>>> それとも、"*.pdf"のようにワイルドカードが利用可能でしょうか?
>>>>> 連続してご質問して申し訳御座いませんが、回答いただければ幸いです。
>>>>>
>>>>> --
>>>>> Yoshimasa IWASE
>>>>>
>>>>> _______________________________________________
>>>>> Fess-user mailing list
>>>>> Fess-****@lists*****
>>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>>>>
>>>>
>>>> _______________________________________________
>>>> Fess-user mailing list
>>>> Fess-****@lists*****
>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>>>
>>>
>>>
>>>
>>> --
>>> Yoshimasa IWASE
>>>
>>
>>
>>
>> --
>> Yoshimasa IWASE
>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-****@lists*****
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>



-- 
Yoshimasa IWASE
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: s2robot_extractor.dicon
型:         application/octet-stream
サイズ:     7262 バイト
説明:       無し
Download 



Fess-user メーリングリストの案内
Back to archive index