Yusuke TABATA
yusuk****@w5*****
2007年 3月 5日 (月) 20:27:28 JST
田畑です。 Mamoru KOMACHI wrote: > コーパスを用いて誤変換潰すってのは、いい方向だと思います。参考までに、 > 商用のものには使えないライセンスになっていますが、Microsoft Research > IME Corpus というものが公開されています。 情報ありがとうございます。実は既に知ってたりしますが(去年、東山さんに 教えてもらいました)MLに出してもらえると助かります。 > このコーパスに入っているのは新聞記事だけですが、合計6000文のかなからか > な漢字交じり文への変換例が収録されています。 性能測定用なのに今のanthy(600文)の10倍の規模というのがステキです。 プロ恐るべしという感じですね。 > > Anthy 使う人は全員が全員新聞記事のように書くわけではない(たとえばチャッ > トするときとか)ので、いろいろなスタイルの例文が集まるともっと適切に変 > 換できるようになるんじゃないかと思います。 今のところ、IRCで周囲の人の発言の名詞を変えたり、コードのコメントを ついでに転記したりしてますが、確かに色々な所から取ってくる手法を 考えたいものですね。 -- -- CHAOS AND CHANCE! Yusuke TABATA