HorimotoYasuhiro
horim****@clear*****
2017年 5月 31日 (水) 18:32:40 JST
To:石橋さん こんにちは。堀本です。 「select Terms」の結果、表示されている、「message_index」は「_key」で 検索を行った場合に何件程度Hitするかの推定値です。 例えば [4,"マクドナルド",1] であれば、「マクドナルド」で検索した際に、 1件程度Hitしそう という意味です。 あくまでも、推定値なので、正確な値ではありません。 以上です。失礼いたします。 On 2017年05月24日 18:12, 石橋 卓見 wrote: > > 各位様 > > 大変有用なGroonga、ならびにMroongaをいつも利用させていただいております。 > 石橋と申します。お忙しいところ恐縮ですが、1点質問をさせて下さい。 > > > 以下の手順にて、文書テーブル(Logs)と、全文検索の為の索引テーブル > (Terms - message_index)を作成し、文書テーブルにサンプルデータを > 3行 登録致しました。 > -------------------------------------------------------------------- > $ groonga -n /tmp/sample.db >> table_create Logs TABLE_NO_KEY >> column_create Logs message COLUMN_SCALAR Text >> table_create Terms TABLE_PAT_KEY ShortText \ > --default_tokenizer TokenMecab \ > --normalizer NormalizerAuto >> column_create Terms message_index COLUMN_INDEX|WITH_POSITION Logs message >> load --table Logs > [ > {"message": "【衝撃】マクドナルドが公式に「ベッキーバーガー」を発売! その味はゲスなほどウマかった(笑)"}, > {"message": "ベッキー「気持ち分かる」ノンスタ井上に共感"}, > {"message": "ゲス不倫にお買い物中毒…20代女子が親に秘密にしていること3選"}, > ] > -------------------------------------------------------------------- > > その後に、select Terms にてデータを確認したところ、期待通りMecabにて > トークナイズされていることを確認出来ました。 > -------------------------------------------------------------------- >> select Terms --limit 999 > [[0,1495615305.558772,0.0003552436828613281],[[[47],[["_id","UInt32"],["_key","ShortText"],["message_index","UInt32"]],[13,"!",1],[23,"(",1],[25,")",1],[36,"...",1],[37,"20",1],[46,"3",1],[8,"「",11],[10,"」",13],[1,"【",1],[3,"】",1],[44,"いる",1],[33,"お",1],[21,"かっ",1],[5,"が",8],[45,"こと",1],[42,"し",1],[14,"その",1],[22,"た",1],[43,"て",1],[18,"な",1],[7,"に",11],[16,"は",1],[19,"ほど",1],[11,"を",1],[20,"ウマ",1],[17,"ゲス",20],[29,"ノンスタ",1],[26,"ベッキー",1],[9,"ベッキーバーガー",1],[4,"マクドナルド",1],[32,"不倫",1],[35,"中毒",1],[30,"井上",1],[38,"代",1],[6,"公式",1],[31,"共感",1],[28,"分かる",1],[15,"味",1],[39,"女子",1],[27,"気持ち",1],[12,"発売",1],[41,"秘密",1],[24,"笑",1],[2,"衝撃",1],[40,"親",1],[34,"買い物",1],[47,"$ > BA*�",1]]]] > -------------------------------------------------------------------- > > この時の結果 "message_index"についてですが、どのような意味があるのかが > わからず、今回質問をさせていただきました。 > [17,"ゲス",20] の20の値の意味を教えていただけると助かります・・・ > ぱっと見たところ、出現数が多い程大きいように見受けられるので、スコアの > ようなものでしょうか? > > 元々、message_indexには、単語毎に、Logsテーブルのどの文書(id)に出現したか > どうかの情報が入っているのかと思っておりました。 > # 例えば、「ゲス」という単語であれば、1,3 、「ベッキー」は 1,2 のようなもの > > このような情報はGroongaより取得できるのでしょうか。 > > Groongaの内部的な仕組みについてよくわかっておらず、恐縮ですが、アドバイスを > 頂けると助かります。 > > どうぞよろしくお願い致します。 > > > -- > > 株式会社システムソフト > システム事業部 情報テクノロジ部 > 石橋 卓見 <ishib****@syste*****> > 常駐先 ( KDDI研究所SS分室 ) 049-278-7507 > 携帯電話 090-9689-0997 自宅 04-2928-6313 > > > > _______________________________________________ > groonga-dev mailing list > groon****@lists***** > http://lists.osdn.me/mailman/listinfo/groonga-dev >