[Ludia-users 102] Re: 形態素インデックスで投入に1秒以上かかります

Back to archive index

Tasuku SUENAGA a****@razil*****
2007年 10月 9日 (火) 18:28:34 JST


末永と申します。

MeCabの辞書の文字コードは何になっていますでしょうか?
シェルで「mecab -D」を実行した結果を教えていただけると
切り分けに役立ちます。

Shunsuke Tanaka さんは書きました:
> 田中と申します。
> 
> 初めて投稿します。よろしくお願いします。
> 
> 形態素インデックスでデータを連続して投入していたら、3万件くらい投入した
> ところから1件投入するのに1秒以上かかるようになり、処理がほとんど進まなく
> なってしまい困っております。
> 
> 行った作業の順番は以下の通りです。
>   テーブルを作成
>   形態素インデックスを作成
>   データを1件ずつINSERT文で投入
> 
> テーブルには列が4つありますが、1つの列だけに形態素インデックスを作成しま
> した。
> 形態素インデックスを作成した列のデータは、可変長で、小さいものは数十Kバ
> イト、大きい物では数Mバイトで、たいていは100Kバイト程度です。
> 
> PostgreSQLのログに以下の出力が大量に出ているのが少し気になります。
> LOG:  pgsenna2: |w| invalid euc-jp string end on sen_str_charlen
> 
> なお、同じデータを2-gramインデックスで投入したときは上記のログは出力されません。
> 
> 使用したソフトウェアは以下の通りです。
> Ludia 1.3.0
> Senna 1.0.9
> mecab 0.96
> mecab-ipadic 2.7.0 20070801
> PostgreSQL 8.2.4
> Linux ( Fedora Core 2 (32bit版) (Kernel 2.6.5) )
> 
> 使用したハードウェアは以下の通りです。
> Dell Precision 470
> CPU:  Xeon 2.8GHz × 2
> Memory:  2Gbyte
> HDD:  SATA 400Gbyte  7200rpm
> 
> よろしくお願いします。
---
Tasuku SUENAGA <a****@razil*****>




Ludia-users メーリングリストの案内
Back to archive index