[Anthy-dev 3326] anthy-8523 Re: egg-anthy での記号の入力

Back to archive index

Yusuke TABATA yusuk****@w5*****
2007年 1月 23日 (火) 23:45:01 JST


田畑です。

Yusuke TABATA wrote:
> 修正してanthy-8523としてリリースしました。
> http://osdn.dl.sourceforge.jp/anthy/23700/anthy-8523.tar.gz
ついでというには大きいですが、辞書のutf8化の他に変換の
アルゴリズムをMEMMから変えています。
#正確には「アルゴリズム」というのは変ですが。

MEMMは確率をP∝exp(f・λ)というような式で求めるのですが、
色々と面倒だったので素性の組み合わせに対する経験的確率を
hard codeするようにしました。
	
確率は calctrans/corpus.?.txt の例文から作られるので、
例文を追加した場合は
 $ cd calctrans;make update_params
でsrc-splitter/transition.hが更新されるので再度コンパイルし
直してください。

MEMMでやってた間、次のような問題を検討していたのですが、
結局、素人っぽい手で逃げることにしました。
 (1)線形識別の問題
    →素性を正しく設計すべき。どうやって?
 (2)パラメータの収束にかかる時間の問題
    →高速なアルゴリズムもあるらしいが、僕に理解できるのは
      反復スケーリングまで。
 (3)正しくない変換結果に対する確率が適当に出てくる
    →CRFにすると良さそうだが、コード書く時間やらデバッグする
      時間やらの予想がつかない。

誤変換に絡んだ素性の組み合わせも記録するので、誤変換を修正し
やすくなってると思います。

-- 
--
 CHAOS AND CHANCE!
  Yusuke TABATA



Anthy-dev メーリングリストの案内
Back to archive index