[Anthy-dev 3683] Re: Anthy 9100g リリース!

Back to archive index

UTUMI Hirosi utuhi****@yahoo*****
2009年 2月 8日 (日) 23:08:56 JST


内海です。

--- Hideyuki SHIRAI <shira****@meado*****> wrote:
> > -あき #KJ*13 明 #KJ*7 穐 #KJ*5   #KJ*5 龝
>                                  ~~
> いわゆる一つの「全角スペース」(U+3000)なので、一連の話の「ゴミ」
> とは関係ないですね。

--- Jun Oizumi <vagus****@gmail*****> wrote:
> この全角空白は以前登録依頼を頂いたもので、意図的なものです。

あ、「空き」ですね。
まったく気づきませんでした。

//
ついでに複合語の文字数をチェックするツールを作りました。
$ ruby anthy-check-compound.rb g_fname.t を実行すると
g_fname.t.compoundが作られるので、
diffを取ると怪しい単語が分かります。
(UTF8の辞書でしか判別できません)

anthy-utf8-fix-space.rb からは全角スペースのチェックを外しました。

ツールを作ってみて、
"#_4天草_3四郎_4時貞" のように3分割されているものがあることや、
"#_a小中学生_2向け" のように16進数で書かれていることを知りました。


--------------------------------------
Yahoo! JAPAN - Internet safety for children and parents.
http://pr.mail.yahoo.co.jp/security/
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: anthy-fix-dictionaries-utf8.tar.gz
型:         application/gzip
サイズ:     1111 バイト
説明:       433960082-anthy-fix-dictionaries-utf8.tar.gz
Download 



Anthy-dev メーリングリストの案内
Back to archive index