Tasuku SUENAGA
a****@razil*****
2007年 10月 9日 (火) 18:28:34 JST
末永と申します。 MeCabの辞書の文字コードは何になっていますでしょうか? シェルで「mecab -D」を実行した結果を教えていただけると 切り分けに役立ちます。 Shunsuke Tanaka さんは書きました: > 田中と申します。 > > 初めて投稿します。よろしくお願いします。 > > 形態素インデックスでデータを連続して投入していたら、3万件くらい投入した > ところから1件投入するのに1秒以上かかるようになり、処理がほとんど進まなく > なってしまい困っております。 > > 行った作業の順番は以下の通りです。 > テーブルを作成 > 形態素インデックスを作成 > データを1件ずつINSERT文で投入 > > テーブルには列が4つありますが、1つの列だけに形態素インデックスを作成しま > した。 > 形態素インデックスを作成した列のデータは、可変長で、小さいものは数十Kバ > イト、大きい物では数Mバイトで、たいていは100Kバイト程度です。 > > PostgreSQLのログに以下の出力が大量に出ているのが少し気になります。 > LOG: pgsenna2: |w| invalid euc-jp string end on sen_str_charlen > > なお、同じデータを2-gramインデックスで投入したときは上記のログは出力されません。 > > 使用したソフトウェアは以下の通りです。 > Ludia 1.3.0 > Senna 1.0.9 > mecab 0.96 > mecab-ipadic 2.7.0 20070801 > PostgreSQL 8.2.4 > Linux ( Fedora Core 2 (32bit版) (Kernel 2.6.5) ) > > 使用したハードウェアは以下の通りです。 > Dell Precision 470 > CPU: Xeon 2.8GHz × 2 > Memory: 2Gbyte > HDD: SATA 400Gbyte 7200rpm > > よろしくお願いします。 --- Tasuku SUENAGA <a****@razil*****>