Download
Desenvolver
Conta
Download
Desenvolver
Login
Forgot Account/Password
Criar Conta
Linguagem
Ajuda
Linguagem
Ajuda
×
Login
Nome de acesso
Senha
×
Forgot Account/Password
Estado tradução de Português
Category:
Software
People
PersonalForge
Magazine
Wiki
Pesquisa
OSDN
>
Pesquisar Software
>
Internet
>
WWW/HTTP
>
Indexing/Search
>
Ludia
>
Ticket List/Search
>
Tíquete #11202
Ludia
Descrição
Project Summary
Developer Dashboard
Página da Web
Developers
Image Gallery
List of RSS Feeds
Activity
Statistics
Histórico
Downloads
List of Releases
Stats
Tíquete
Ticket List
Milestone List
Type List
Lista de componentes
List of frequently used tickets/RSS
Submit New Ticket
Documents
Wiki
FrontPage
Title index
Recent changes
Doc Mgr
List Docs
Communication
Fóruns
List of Forums
Ajuda (2)
Open Discussion (1)
Mailing Lists
list of ML
ludia-users
News
Tíquete #11202
Ticket List
Submit New Ticket
RSS
類似分書検索の特徴語抽出の条件について
:
2007-10-26 19:29
Última Atualização:
2007-11-16 10:08
monitor
ON
OFF
Relator:
ssn
Dono:
(Nenhum)
Tipo:
Bugs
Estado:
Aberto
Componente:
(Nenhum)
Marcos:
(Nenhum)
Prioridade:
5 - Medium
Gravidade:
5 - Medium
Resolução:
Nenhum
Arquivo:
Nenhum
Details
Responder
類似分書検索の特徴語抽出の条件について
■環境
Redhat Enterprise Linux 4 U5
ludia 1.3.1 (mecab-0.96 ipadic-2.7.0 senna-1.0.9
postgresql 8.2.4
■設定
postgres.conf
・ludia.max_n_sort_result = 100000
・ludia.enable_seqscan = on
・ludia_sen_index_flags = 31
・ludia.max_n_index_cache = 16
・ludia.initial_n_segments = 2048
■DB
・TABLE : id int4,data text
・DATA : id = 1,data = (ライオン、ゾウ)
・INDEX : fulltext ※形態素
■現象
特徴語の抽出条件は文章中で出現頻度が高い語のはずなので
1.ヒットするケース
whre DATA @@ '*S1 "ライオン ライオン トラ"'
形態素の出現頻度は
ライオン:2
トラ:1
ライオンが特徴語となりヒットする
2.ヒットしないケース
whre DATA @@ '*S1 "トラ ライオン ライオン"'
形態素の出現頻度は
トラ:1
ライオン:2
ライオンが特徴語となりヒットする
と思ったのですがヒットしません。
私的な見解では文章の先頭の後が特徴語として扱われている
ように思えます。
よろしくお願いします。
Ticket History (3/6 Histories)
Show older Histories
2007-10-31 09:01
Updated by:
co-saka
Comentário
Responder
Logged In: YES
user_id=23292
ご報告ありがとうございます!!!
非常に助かります。
上記の件はsubversion上から取得できるSenna rev603を利用する
と、
正常な動作になります。
http://lists.sourceforge.jp/mailman/archives/senna-
dev/2007-October/000713.html
Subversionでの取得方法
http://qwik.jp/senna/Download.html
今後もバグなど見つかりましたら、
ご報告よろしくお願いします。
2007-11-09 11:57
Updated by:
ssn
Comentário
Responder
Logged In: YES
user_id=31583
rev 610にて確認しました。
上記の異常ケース
>2.ヒットしないケース
については対応確認出来ました。
ありがとうございます。
しかし新たに問題が…
3.ヒットするケース
whre DATA @@ '*S1 "トラ トラ ライオン"'
とした場合
形態素の出現頻度は
トラ:2
ライオン:1
トラが特徴語となりヒットしないと思ったのですが
ヒットしてしまいます。
仕様的に(fulltextで"*S1"の場合)
"検索文字列の中で一番出現頻度の高い形態素一つを検索文字列と
する"
で認識あってますよね?
また同じ出現頻度の物があった場合
例
検索文字列(トラ トラ ライオン ライオン)
抽出後 (トラ ライオン)
で *S1 とした場合はどちらで検索しに行くのでしょうか?
追加質問で申し訳ありませんが
よろしくお願いします。
2007-11-13 08:42
Updated by:
co-saka
Comentário
Responder
Logged In: YES
user_id=23292
> で認識あってますよね?
若干違います。検索文字列の中で出現頻度が高く、かつ、検索対
象の全レコードの中で出現頻度が低い(0は除く)形態素が特徴語
になります。
> 3.ヒットするケース
この場合は、検索対象が「ライオン、ゾウ」であるため、出現頻
度が0であるトラは特徴語になりません。
検索文字列が一般的な文章である場合に、検索文字列の中の出現
頻度だけで特徴語選出を行うと、「は」「の」などの助詞が特徴
語になってしまい、類似文書検索の意味がなくなってしまいま
す。
> また同じ出現頻度の物があった場合
rev610では、出現頻度が等しい場合は、先にインデックスに登録
された形態素が優先されます。しかし、これはrev610の仕様であ
るため、今後変わる可能性があります。
2007-11-13 11:44
Updated by:
ssn
Comentário
Responder
Logged In: YES
user_id=31583
問題解決しました。ありがとうございます。
類似検索のロジックについてはマニュアル等に載っていないと思う
のですが、
何か別のドキュメントに書いてあるのでしょうか?
2007-11-16 08:57
Updated by:
co-saka
Comentário
Responder
Logged In: YES
user_id=23292
類似検索のドキュメントについては、
下記リンクしかありません。
http://qwik.jp/senna/query.html
LudiaのREADMEにも書いたほうが良さそうですね。
2007-11-16 10:08
Updated by:
ssn
Comentário
Responder
Logged In: YES
user_id=31583
回答ありがとうございます。
sennaのサイトに類似検索について多少書いてあるのは知っていた
のですが、
できれば
実際こういう検索をしたらこれがhitする
というような明示的な解説が欲しいと思いました。
たぶんこれはludiaではなくsennaへの要望ですので、場違い的な質
問申し訳ありません。
Attachment File List (
0
)
Attachment File List
No attachments
Editar
Adicionar Comentário
You are not logged in.
I you are not logged in, your comment will be treated as an anonymous post. »
Login
Adicionar Comentário
Pré-visualizar
Submit
■環境
Redhat Enterprise Linux 4 U5
ludia 1.3.1 (mecab-0.96 ipadic-2.7.0 senna-1.0.9
postgresql 8.2.4
■設定
postgres.conf
・ludia.max_n_sort_result = 100000
・ludia.enable_seqscan = on
・ludia_sen_index_flags = 31
・ludia.max_n_index_cache = 16
・ludia.initial_n_segments = 2048
■DB
・TABLE : id int4,data text
・DATA : id = 1,data = (ライオン、ゾウ)
・INDEX : fulltext ※形態素
■現象
特徴語の抽出条件は文章中で出現頻度が高い語のはずなので
1.ヒットするケース
whre DATA @@ '*S1 "ライオン ライオン トラ"'
形態素の出現頻度は
ライオン:2
トラ:1
ライオンが特徴語となりヒットする
2.ヒットしないケース
whre DATA @@ '*S1 "トラ ライオン ライオン"'
形態素の出現頻度は
トラ:1
ライオン:2
ライオンが特徴語となりヒットする
と思ったのですがヒットしません。
私的な見解では文章の先頭の後が特徴語として扱われている
ように思えます。
よろしくお願いします。