Mamoru KOMACHI
usata****@usata*****
2007年 3月 6日 (火) 10:03:15 JST
小町です。 At Tue, 06 Mar 2007 08:16:36 +0900, NOKUBI Takatsugu wrote: > 私も、日本語シソーラスを自動生成したり、大量の例文からSKK辞書に品詞 > を自動割り当てしたい、などとという野望があって、そのためにさまざまなと > ころからテキストをとってくる方法としてPlaggerを使おうと思っています。 > http://plagger.org/ なるほど。日本語では自由に使うことのできる英語の WordNet http://ja.wikipedia.org/wiki/WordNet のようなシソーラスがないので、シ ソーラスの自動生成は最近やろうかなあと思っていたところです。といっても 巨費を投じて作れるわけでもないし、そんな人手もかけられないので、 Wikipedia 程度の大きさのデータから作る感じで考えていました。 SKK 辞書への品詞割り当てもできそうですよね。SKK 辞書使えば単語の区切り は分かるので、そういう単語区切りにもっともなりそうな品詞を推定する、と かいう感じですね。 > 以前はWebクローラのWIREを使ってやろうと思い、SWIGによるbindingを作っ > ていろいろ試していたのですが、コーパスやシソーラスなど、信頼できるテキ > ストにしぼって集めるのであればPlaggerの方がいいだろうと今は思っていま > す。 > http://www.daionet.gr.jp/~knok/trac/trac.cgi/wiki/Wire-Swig 紹介どうもありがとうございます。Web データ、あまり考えずに集めるとゴミ ばかり(あるニュースサイトの内容がほぼ同一のままコピーされまくっていたり、 もしくはアダルトサイトばかり収集したり)になってしまうので、Web をコー パスにするにしても信頼性の高いデータがほしいと思っています。Wikipedia はそういう意味でサイズとしてもそこまで小さくなく、大きすぎもせず、けっ こういい線行っているとは思うのですが、やはり出てこない表現は出てこない ので、なんらかの方法で適当にデータ集めてサブコーパス作る必要あるだろう な、と考えています。 こういう感じのデータがほしい、とかいうとき、キーワード何個か入れるか、 もしくはサイトを何個か指定するだけで、それに似たデータを集めてきてくれ る仕組みがあるといいですよね。Plagger で集めるという発想なかったので、 参考になりました。ちょっとその方向も検討してみます。 ではでは -- Mamoru KOMACHI <usata****@usata*****>, <mamor****@is*****> Nara Institute of Science and Technology