Kouhei Sutou
kou****@clear*****
2013年 8月 8日 (木) 22:43:45 JST
須藤です。 In <CANM+****@mail*****> "[groonga-dev,01581] Re: groongaのトークナイザの改善について" on Wed, 7 Aug 2013 23:34:04 +0900, Naoya Murakami <visio****@gmail*****> wrote: > ぬああああ、サンプルまでわざわざつくっていただいて、 > 至れり尽くせりでどうもありがとうございます。 > > 非常に助かります。参考にしてつくってみたいと思います。 お役に立てるならとてもよかったです! もう少し凝ったサンプルの説明を林さんがQiitaに書いてくれたので そちらもあわせてどうぞ。 http://qiita.com/groonga/items/891537181b4e21736264 ↑ではトークナイザーで単語の正規化(単数形に揃えるとか)をし ていますが、ノーマライザーでやる方法もあります。トークナイザー でやる方が、すでに単語に切れていて作りやすいのですが、ノーマ ライザーでやるとsnippetでも効果があるという違いがあります。 (トークナイザーでやるとsnippetでは効かない気がする。) > とりあえず、喫緊で、TokenBigramを所定の文字以下で切れるようにして、 > mroongaでインデックスを構築したいので、これを実装したいと思います。 > (公式にご対応を検討していただけるとのことですが、データサイズが大きく > インデックスの構築にすごい時間がかかるので、できるだけ早くはじめたい > と思っていまして。。) はい! > 少し、落ち着いたら、今まで培ったノウハウや、懇切に教えていただいた内容は、 > blog等で情報発信してgroonga、mroongaの普及のお手伝いになればと思ってます! それはとてもうれしいです!ありがとうございます! -- 須藤 功平 <kou****@clear*****> 株式会社クリアコード <http://www.clear-code.com/> (03-6231-7270) groongaサポート: http://groonga.org/ja/support/ パッチ採用はじめました: http://www.clear-code.com/recruitment/ コミットへのコメントサービスはじめました: http://www.clear-code.com/services/commit-comment.html