UTUMI Hirosi
utuhi****@yahoo*****
2007年 3月 5日 (月) 19:54:14 JST
内海です。 alt-cannadic の非活用語を mecab-ipadic に取り込み、 ja.wikipedia-20070224 を mecab-ruby で分析しました。 mecab-ipadic 単体では取りきれなかったエントリを 取得できるようになっています。 ただし非活用語の取り込みはざっくりと行っているので、 必ずしも適切な結果を得られるとは限りません。 http://www.geocities.jp/ep3797/anthy_dict_01.html 分析結果: wiki-analyzed-20070303.tar.bz2 非活用語を ipadic 形式に変換した辞書: altcannadic-hikatuyou-ipadic-20070303.tar.bz2 変換のために作成したスクリプトも同梱しています。 http://lists.sourceforge.jp/mailman/archives/anthy-dev/2007-February/003386.html > 実際のところ、変換精度を向上させるためには > 99,90,50,10(上位1%,10%,50%,下位10%) > ぐらいがあれば十分で、そんなに細かくする必要は > ないんじゃないかと予想しています。 日本語は同音異義語が非常に多いので、上位の語は細かく分類しないと 適切な変換結果を得られないかもしれません。 (切る/斬る, 蛸/凧 のように) mecab + modified-ipadic で ja.wikipedia を分析すると 50 万語を得られます。 今回取得した分析結果を私家版 Anthy に適用する作業を 現在行っているのですが、 手元の辞書では頻度を次のように設定しています。 (暫定的な数字です。強い根拠がある訳ではありません) // 下位 90%: 頻度 1 上位 10- 9%: 頻度 2 9- 8%: 3 8- 7%: 4 7- 6%: 5 6- 5%: 6 5- 4%: 100 4- 3%: 110 3- 2%: 120 2- 1%: 130 1-0.5%: 140 0.5-0.2%: 150 0.2- : 160 // 50 万語のうち 下位 45 万語は参考表記, 残り 5 万語が日常語, 5 万語のうち 2.5 万語が重要語 というスタンスです。 設定後の頻度が 100 以上の動詞/形容詞/副詞/連体詞は あとで頻度を 1500 足しています。 読みの短い単語は名詞に埋没してしまうことがあるからです。 (もじをかく => 文字を各 のように) mecab ではひとつの表記に対してひとつの読みしか得られません。 例えば「亮子」からは「あきこ」という読みしか得られません。 そこで以前は alt-cannadic との差分をとって 足りないエントリを追加していたのですが、 差分をとるのは非常に時間がかかります。 今回は alt-cannadic の全エントリの頻度を「1」にして、 辞書をまるごと追加しました。 > ども、誰も8700使ってないのかと心配してたんですが、 まだあまりテストしていないのですが、 上記の辞書を Anthy に適用した 私家版 anthy-8700but.tar.bz2 をアップロードしました。 http://www.geocities.jp/ep3797/anthy_dict_01.html そんなに悪くないと思いますが、きちんと詰めていないので 精度には期待しないでください。 gcannaf.ctd は大泉さんのものをそのまま使用し、 adjust.t は数語 wikicannadic 向けに補正しています。 補正しきれないものは wikicannadic-extra に 手動で数十語追加しています。 -------------------------------------- Start Yahoo! Auction now! Check out the cool campaign http://pr.mail.yahoo.co.jp/auction/