[Anthy-dev 3837] 進捗/予定

Back to archive index

NIIBE Yutaka gniib****@fsij*****
2010年 8月 3日 (火) 10:53:41 JST


皆様:

溜まっているのは相変わらずですが、進んでいるところは進んでいます。

下記にこれまでの進捗/今後の予定を示します。ご意見ありましたらお願いしま
す。

Egg v4: 進展なし。
郵便番号: 7/31 版まで入れた。ITP は出したまま package 作成はしていない。


Anthy:

(1) テスト: 進展なし。
    テストを書く段階に至っていないかも。

(2) Ubuntu の変更の取り込み
    とりこめるところは取り込んだと思うので、おしまいの方向で。

(3) これまでの変更:

* wtype を用いた付属語の処理への変更: feature/depgraph-wt

自立語に続く付属語を認識する処理ですが、これまでの実装は、付属語のルー
ルの始まりのノードが ptab.h を使ったものになっていました。

自立語の品詞(wtab.h)とルールの始まり(ptab.h)で比較して、付属語を認識す
る、という処理でした。indepword.txt というファイルで ptab.h の自立語の
品詞でルールの始まりが定義されています。

ここを indepword-wt.txt というファイルで指定する wtab.h の品詞と付属語
のルールの結びつきに変更しました。


* 定期清掃のような管理仕事

ptab.h を使うのをやめ:  janitor/no-ptab-use
日本語のリテラルを使わないように: janitor/segclass-eucjp-literal-removal
昔使ってたオンボロ実装の削除: janitor/remove-texttrie
辞書の mmap のまわりの清掃: janitor/mmap-readonly

* bug fixes:

  * ~/.anthy/last-record2_default でおかしな ADD UNKNOWN_WORD のエント
    リができるのを修正。
  * anthy-agent での辞書の指定(--dic)の間違い修正。


(4) alt-depgraph-new の中で残るは本体の depgraph の変更。

wtab.h/ptab.h を変更したけれど depgraph の変更は採り入れていないので中
途半端です。

feature/ancill-words-dfa というブランチで DFA を作るので試しています。

次に、現在/alt-depgraph-newの node 遷移の詳細はまだ追えていません。

正規表現での記述が使えるかどうか少し検討しましたが、正規表現というより
も、<自立語>に続いて複数の<付属語>が続くというのを認識する処理ではない
かと感じています。

	<自立語> <付属語>*

この <付属語> が続くというところをルールで書いていくと面倒な事になって
いるかなぁと感じています。

付属語の要素をルール記述するのは良いとしても、付属語のつながりは別のと
ころで見る方法もあるかなぁ。
-- 




Anthy-dev メーリングリストの案内
Back to archive index