[groonga-dev,01615] Re: groongaのトークナイザの改善について

Back to archive index

Naoya Murakami visio****@gmail*****
2013年 8月 13日 (火) 08:41:21 JST


お世話になっております。村上です。

本件の誤ヒットになるという件について、少し考えたのですが、
アルファベット記号数字列が連続して4096byte以上になったあとで、
一部を切り出すと、書いていただいた例のように誤ヒットになると思うのですが、
アルファベット記号数字列が4096個以上連続する前に切り出せば、
文字抜けが生じることがなく誤ヒットにはならないですよね?

X..(4096)..Xabcは、X...Xとabcにトークナイズされて、インデックスされ、
検索時も、X....Xとabcにトークナイズして検索される。
もしかして、検索時に渡される文字列は、4096byte以下という仕様があったりしますか?

でも、長いものは、ほとんど無駄でもったいないということで無視するということでも
問題ないと思います。厳密なものがほしい場合は、Split系を使えばいいですし。

どうしても、Split系を使わずに、長い記号列を検索したい場合は、サンプルも
作っていただいたことですし、トークナイザをカスタマイズすればいいですしね。

以上、よろしくお願いします。




groonga-dev メーリングリストの案内
Back to archive index