Yusuke TABATA
yusuk****@w5*****
2007年 1月 23日 (火) 23:45:01 JST
田畑です。 Yusuke TABATA wrote: > 修正してanthy-8523としてリリースしました。 > http://osdn.dl.sourceforge.jp/anthy/23700/anthy-8523.tar.gz ついでというには大きいですが、辞書のutf8化の他に変換の アルゴリズムをMEMMから変えています。 #正確には「アルゴリズム」というのは変ですが。 MEMMは確率をP∝exp(f・λ)というような式で求めるのですが、 色々と面倒だったので素性の組み合わせに対する経験的確率を hard codeするようにしました。 確率は calctrans/corpus.?.txt の例文から作られるので、 例文を追加した場合は $ cd calctrans;make update_params でsrc-splitter/transition.hが更新されるので再度コンパイルし 直してください。 MEMMでやってた間、次のような問題を検討していたのですが、 結局、素人っぽい手で逃げることにしました。 (1)線形識別の問題 →素性を正しく設計すべき。どうやって? (2)パラメータの収束にかかる時間の問題 →高速なアルゴリズムもあるらしいが、僕に理解できるのは 反復スケーリングまで。 (3)正しくない変換結果に対する確率が適当に出てくる →CRFにすると良さそうだが、コード書く時間やらデバッグする 時間やらの予想がつかない。 誤変換に絡んだ素性の組み合わせも記録するので、誤変換を修正し やすくなってると思います。 -- -- CHAOS AND CHANCE! Yusuke TABATA