g-hal****@fenix*****
g-hal****@fenix*****
2010年 6月 24日 (木) 22:30:48 JST
fenix.ne.jp の G-HAL です。 ptab.h と wtab.h の統合に関して。 <AANLkTim5bRA4_usR4Z****@mail*****>の記事において vagus****@gmail*****さんは書きました。 > >基本的には同意ですが、ただ、微妙に私の理解とズレが…。 > >> (1) と (2) の対応が現実装では typetab で提供されていたが、保守がいまい >> ちだったということなのかな。 > >ptab.h と typetab は完全に独立のものではないでしょうか? > >実際の動作から推測した限りの理解ですが、 > >[ptab.h と wtab.h の関係] >1) 辞書のエントリの品詞コード(#XX)を見る > ↓ >2) wtab.h にその品詞コードを探し、その品詞コードに対応する > 情報(POS, COS, CC etc)を得る > ↓ >3) 2) で得た情報を元に ptab.h を検索し、品詞名( "名詞35" 等)を得る > ↓ >4) 3) で得た品詞名を元に depgraph/indepword.txt を検索し、 > 後続ノード名を得る >5) 後は、depgraph/master.depword から各品詞用の *.depword を辿って > 1) の語に続く付属語列を得る > >(つまり、ptab.h は辞書と付属語グラフをつなげる処理に使われるもので、ユーザの目には >触れない。) この 3) における、wtab.h から ptab.h への変換にて、 多対多対応の変換が行われています。 もし、wtab.h と ptab.h を統合するなり1対1対応に変更した場合、 何処にどの様な影響が出るかは不明です。 もしかしたらそれ相応の対処が必要かもしれません。 ざっと見た感じ、原作版Anthy は、この多対多対応を用いて 付属語グラフの圧縮を行っている様に見えます。 alt-depgraph では、付属語グラフ側で1対多(品詞 対 付属語の展開の根) 対応を行っているので、影響は無い様にも思えます。 ================================================================ (Now Printing) ================================================================