[mecab-users 151] Re: コーパスからの学習について

Back to archive index

OHTAKE Kiyonori otake****@fw*****
2006年 8月 2日 (水) 11:46:25 JST


大竹です。

mecab で自分のコーパスを使って学習させたいなら
64bit環境は必須に思います。

From: nomoto <nomot****@la*****>
Subject: [mecab-users 150] コーパスからの学習について
Date: Wed, 2 Aug 2006 01:55:02 +0900

> 野本です。
> mecab のメモリ不足の件についての報告です。
> 
> mecab の使用環境は
> mecab-0.91
> mecab-jumandic-5.1
> また、今回は mecab-ipadic-2.7.0-20060408 も使って検証してみました。
> 
> mecab-jumandic-5.1 に8万行のコーパスを学習させると、
最終的に学習させたいコーパスの量はどれくらいですか?
ちなみに、京大コーパスをipadicフォーマットにコンバートした先頭の
2882文(80017形態素 EOS含む)を学習するときに
私のところでは、 600MB 程度のメモリをプロセスが利用します。
また、model ファイルを書き出すときにはこれが、700MB以上に増えるところ
までは確認しています。
# これは 64bit マシンの値です。32bitマシンでは、400MB->500MBくらいでした。
ちなみに wc -l *.csv は
692940 total
です。

> >> メモリを増設すればこのエラーは解決するのでしょうか?
> 
> >はい。解決します。
> 
> なので、早速メモリを増設し 512M から 1G にメモリを増設し再度8万行のコーパスを学習させてみました。
> ところが、また同じエラーが発生してしまいました。
> これはおかしいな。と思ったので、コーパスから学習している間、パソコンのメモリ使用状況を監視してやってみたのですが、8万行の場合に1Gのメモリをフルに使っていないにもかかわらず上記のようなエラーが発生してしまいます。
swap のサイズと使用状況、 OS や他のアプリケーションが使用しているメモリ量
によっては発生するように思います。

> また、juman5.0 の辞書を使うとメモリをかなり食うということなので、mecab-ipadic-2.7 を使ってコーパスを学習させてみたのですが、結果は mecab-jumandic-5.1 と同じ結果になりました。
最終的に何をしたいのかよくわからないのですが、
品詞体系は juman がいいのですか?
# 学習につかうコーパスの体系を簡単にコンバートできるのでしょうか?
# それとも、両方の体系でタグ付けしてある?

ところで、 [mecab-users 92] から始まる野首さんの一連の
メールはご覧になりましたか。
[mecab-users 141] で工藤さんも答えてらっしゃいますが、
どうしてもメモリが用意できないのなら分割学習もできる
ようですが...(私はしたことありません)

----
大竹清敬(おおたけ きよのり) otake [at] fw.ipsj.or.jp



mecab-users メーリングリストの案内
Back to archive index