[groonga-dev,01841] Re: mecabトークナイザでのtoo long sentenceの回避方法について

Back to archive index

Kouhei Sutou kou****@clear*****
2013年 9月 30日 (月) 14:27:22 JST


須藤です。

In <CANM+HhdS1MBFab4h2-tb+qG_BQack****@mail*****>
  "[groonga-dev,01833] Re: mecabトークナイザでのtoo long sentenceの回避方法について" on Sat, 28 Sep 2013 00:56:39 +0900,
  Naoya Murakami <visio****@gmail*****> wrote:

> 途中オペミスでインデックス構築をやり直したりしましたが、mecabの
> too long sentenceが発生せずに、インデックス構築を完了させることが
> できました。ありがとうございました。

おぉ、よかったです!

> TokenBigramの場合は、だいたい、1~10secの検索結果だったのが、
> TokenMecab(+てにをは等除去)で0.5〜数secの検索結果と
> 2〜3倍の検索速度を得ることができました。

結構違いますねぇ。

> また、マルチインデックスが組めなくて、語彙表が複数にわかれてしまっているので、
> このあたりも少し足をひっぱっている原因かなぁと思われるので、
> インデックスサイズが大きい場合もインデックス構築が失敗しないように
> 改善されることを期待しています。

はい!

> あとは、トークナイズ処理の最適化の後、余裕ができたらになると思いますが、
> Qiitaでご紹介いただいていたdroongaとかも検討してみたいなぁと思ってます。

おぉ。11/29あたりの頃だともっといい感じになっていると思いま
す!

-- 
須藤 功平 <kou****@clear*****>
株式会社クリアコード <http://www.clear-code.com/> (03-6231-7270)

groongaサポート:
  http://groonga.org/ja/support/
パッチ採用はじめました:
  http://www.clear-code.com/recruitment/
コミットへのコメントサービスはじめました:
  http://www.clear-code.com/services/commit-comment.html




groonga-dev メーリングリストの案内
Back to archive index