[Anthy-dev 3420] Re: wikiのコーパス用例文収集

Back to archive index

Mamoru KOMACHI usata****@usata*****
2007年 3月 8日 (木) 04:09:52 JST


小町です。

At Wed, 07 Mar 2007 16:39:26 +0900,
NOKUBI Takatsugu wrote:

> > こういう感じのデータがほしい、とかいうとき、キーワード何個か入れるか、
> > もしくはサイトを何個か指定するだけで、それに似たデータを集めてきてくれ
> > る仕組みがあるといいですよね。Plagger で集めるという発想なかったので、
> > 参考になりました。ちょっとその方向も検討してみます。
> 
>   その手の方向だと、blog検索やGoogle Newsが使えそうな気がします。精度
> を考えたら、Google Newsの方でしょうか。

そうですね。とはいえ新聞記事は研究目的だとものすごく安く使わせてくれる
し、トピックが偏っている(レストラン検索なんかのアプリケーションを考え
ると新聞記事にはまったくそういう情報がない)という問題もあるので、とり
あえずのターゲットはブログとか口コミ評判サイトでしょうかね。

>   ところで、関東在住邦人のユーザグループであるtlug(Tokyo Linux User
> Group)で日本語入力メソッドについての話題があったので、MacUIM+Anthyを紹
> 介したら大層喜ばれました。なんでも、「かがわけん」を変換するとことえり
> では「科が分けん」になるのだそうで。

自分は Mac OS X 10.3 以降しか Mac をデスクトップ環境に使っていませんが、
ことえりはけっこう間違えますね。(変換を直しても学習してくれないのがい
ちばん困る……。) チャットなどの会話ならある程度正しく変換してくれます
が、固い言葉(論文書くときとか)の変換が弱いです。とはいえ昔のことえりを
知る人が言うほどひどいとも思いません。

>   MS-IME越えはこれから実現されそうな雰囲気ですが、少なくともことえりに
> は勝てているような気がします。

いま Mac ではことえりを使っていますが、変換性能だけを見ると両方得意不
得意があるのでどっちもどっちといった感じです。Unicode 文字入力パレット
とか手書き認識とか予測入力とかシステム全体の使い勝手を入れると、たぶん
ことえりのほうが使いやすいでしょうね。

-- 
Mamoru KOMACHI <usata****@usata*****>, <mamor****@is*****>
Nara Institute of Science and Technology



Anthy-dev メーリングリストの案内
Back to archive index