[fess-user 461] 差分クロール:長い日本語ファイル名 URL が必ずインデックス更新される件

Back to archive index

limol****@nifty***** limol****@nifty*****
2011年 4月 8日 (金) 20:06:23 JST


クニカタです。お世話になっております。

Fess4.0で差分クロールのテスト中、標記状況に遭遇しました。

前回クロール時からファイル内容は更新されていないのですが、
必ず毎回インデックスが登録されているファイルがいくつかあり
ました。
共通している点は、長い日本語のファイル名ということでした。

調査したところ、該当の長いファイル名のものについては、
更新の有無を確認するためのSolrへの問い合わせ結果
件数が0(hits=0)で返るため、毎回登録されていました。

以下、ざっと確認した状況をまとめます。
----
●環境とクロール設定
OS : Windows(XPと2003)
差分クロール : 有効
インデックスの有効期限 : なし
ファイルシステムクロール-ブラウザ : PC

●OKケースだった対象ファイル
内容の更新がない場合、再クロール対象とならない(Solrから「hits=1」が返る)
【ファイルパス】
E:\DocumentFiles\FileNameLen\
022_■いうえおあいうえお■いうえおあいうえお■い.txt
【id】
file:/E:/DocumentFiles/FileNameLen/022_%E2%96%A0%E3%81%84%E3%81%86%E3%81
%88%E3%81%8A%E3%81%82%E3%81%84%E3%81%86%E3%81%88%E3%81%8A%E2%96%A0%E3%81
%84%E3%81%86%E3%81%88%E3%81%8A%E3%81%82%E3%81%84%E3%81%86%E3%81%88%E3%81
%8A%E2%96%A0%E3%81%84.txt;type=pc

●NGケースの対象ファイル
内容の更新がない場合でも、再クロール対象となってしまった(Solrから
「hits=0」が返る)
【ファイルパス】
E:\DocumentFiles\FileNameLen\
023_■いうえおあいうえお■いうえおあいうえお■いう.txt
【id】
file:/E:/DocumentFiles/FileNameLen/023_%E2%96%A0%E3%81%84%E3%81%86%E3%81
%88%E3%81%8A%E3%81%82%E3%81%84%E3%81%86%E3%81%88%E3%81%8A%E2%96%A0%E3%81
%84%E3%81%86%E3%81%88%E3%81%8A%E3%81%82%E3%81%84%E3%81%86%E3%81%88%E3%81
%8A%E2%96%A0%E3%81%84%E3%81%86.txt;type=pc

----
・上記OKケースより短い日本語ファイル名は、OK
上記NGケースより長い日本語ファイル名は、やはりNG
となっていましたので、ここらへんが境界なのではないか
と思ってます。

・solr管理画面から、「id:"〜該当の長いid〜"」
で検索した場合も、結果0件となっていました。
ので、Solr側の問題なんだと思ってます。

Solr側の設定などで、回避できる方法をご存知で
あればご教授いただきたく、よろしくお願いいたします〜




Fess-user メーリングリストの案内
Back to archive index