[groonga-dev,01586] Re: groongaのトークナイザの改善について

Back to archive index

Kouhei Sutou kou****@clear*****
2013年 8月 8日 (木) 22:43:45 JST


須藤です。

In <CANM+****@mail*****>
  "[groonga-dev,01581] Re: groongaのトークナイザの改善について" on Wed, 7 Aug 2013 23:34:04 +0900,
  Naoya Murakami <visio****@gmail*****> wrote:

> ぬああああ、サンプルまでわざわざつくっていただいて、
> 至れり尽くせりでどうもありがとうございます。
> 
> 非常に助かります。参考にしてつくってみたいと思います。

お役に立てるならとてもよかったです!

もう少し凝ったサンプルの説明を林さんがQiitaに書いてくれたので
そちらもあわせてどうぞ。
  http://qiita.com/groonga/items/891537181b4e21736264

↑ではトークナイザーで単語の正規化(単数形に揃えるとか)をし
ていますが、ノーマライザーでやる方法もあります。トークナイザー
でやる方が、すでに単語に切れていて作りやすいのですが、ノーマ
ライザーでやるとsnippetでも効果があるという違いがあります。
(トークナイザーでやるとsnippetでは効かない気がする。)

> とりあえず、喫緊で、TokenBigramを所定の文字以下で切れるようにして、
> mroongaでインデックスを構築したいので、これを実装したいと思います。
> (公式にご対応を検討していただけるとのことですが、データサイズが大きく
> インデックスの構築にすごい時間がかかるので、できるだけ早くはじめたい
> と思っていまして。。)

はい!

> 少し、落ち着いたら、今まで培ったノウハウや、懇切に教えていただいた内容は、
> blog等で情報発信してgroonga、mroongaの普及のお手伝いになればと思ってます!

それはとてもうれしいです!ありがとうございます!

-- 
須藤 功平 <kou****@clear*****>
株式会社クリアコード <http://www.clear-code.com/> (03-6231-7270)

groongaサポート:
  http://groonga.org/ja/support/
パッチ採用はじめました:
  http://www.clear-code.com/recruitment/
コミットへのコメントサービスはじめました:
  http://www.clear-code.com/services/commit-comment.html




groonga-dev メーリングリストの案内
Back to archive index