[Anthy-dev 3401] alt-cannadic の非活用語を mecab-ipadic に取り込む

Back to archive index

UTUMI Hirosi utuhi****@yahoo*****
2007年 3月 5日 (月) 19:54:14 JST


内海です。

alt-cannadic の非活用語を mecab-ipadic に取り込み、
ja.wikipedia-20070224 を mecab-ruby で分析しました。
mecab-ipadic 単体では取りきれなかったエントリを
取得できるようになっています。

ただし非活用語の取り込みはざっくりと行っているので、
必ずしも適切な結果を得られるとは限りません。

http://www.geocities.jp/ep3797/anthy_dict_01.html
分析結果:
wiki-analyzed-20070303.tar.bz2
非活用語を ipadic 形式に変換した辞書:
altcannadic-hikatuyou-ipadic-20070303.tar.bz2
変換のために作成したスクリプトも同梱しています。

http://lists.sourceforge.jp/mailman/archives/anthy-dev/2007-February/003386.html
> 実際のところ、変換精度を向上させるためには
> 99,90,50,10(上位1%,10%,50%,下位10%)
> ぐらいがあれば十分で、そんなに細かくする必要は
> ないんじゃないかと予想しています。

日本語は同音異義語が非常に多いので、上位の語は細かく分類しないと
適切な変換結果を得られないかもしれません。
(切る/斬る, 蛸/凧 のように)

mecab + modified-ipadic で ja.wikipedia を分析すると
50 万語を得られます。
今回取得した分析結果を私家版 Anthy に適用する作業を
現在行っているのですが、
手元の辞書では頻度を次のように設定しています。
(暫定的な数字です。強い根拠がある訳ではありません)
//
下位 90%:    頻度 1
上位 10- 9%: 頻度 2
      9- 8%:      3
      8- 7%:      4
      7- 6%:      5
      6- 5%:      6
      5- 4%:      100
      4- 3%:      110
      3- 2%:      120
      2- 1%:      130
      1-0.5%:     140
    0.5-0.2%:     150
    0.2-    :     160
//

50 万語のうち
下位 45 万語は参考表記,
残り 5 万語が日常語,
5 万語のうち 2.5 万語が重要語
というスタンスです。

設定後の頻度が 100 以上の動詞/形容詞/副詞/連体詞は
あとで頻度を 1500 足しています。
読みの短い単語は名詞に埋没してしまうことがあるからです。
(もじをかく => 文字を各 のように)

mecab ではひとつの表記に対してひとつの読みしか得られません。
例えば「亮子」からは「あきこ」という読みしか得られません。
そこで以前は alt-cannadic との差分をとって
足りないエントリを追加していたのですが、
差分をとるのは非常に時間がかかります。
今回は alt-cannadic の全エントリの頻度を「1」にして、
辞書をまるごと追加しました。

> ども、誰も8700使ってないのかと心配してたんですが、

まだあまりテストしていないのですが、
上記の辞書を Anthy に適用した
私家版 anthy-8700but.tar.bz2 をアップロードしました。
http://www.geocities.jp/ep3797/anthy_dict_01.html
そんなに悪くないと思いますが、きちんと詰めていないので
精度には期待しないでください。

gcannaf.ctd は大泉さんのものをそのまま使用し、
adjust.t は数語 wikicannadic 向けに補正しています。
補正しきれないものは wikicannadic-extra に
手動で数十語追加しています。
--------------------------------------
Start Yahoo! Auction now! Check out the cool campaign
http://pr.mail.yahoo.co.jp/auction/




Anthy-dev メーリングリストの案内
Back to archive index