Toshinobu OGISO
ogiso****@ogiso*****
2009年 4月 1日 (水) 15:03:08 JST
(重複して受け取られた場合はご容赦ください) 近代文語UniDic 1.0のご案内 このたび「近代文語UniDic」 ver.1.0を公開しました。 近代文語UniDicは日本語形態素解析辞書UniDicをもとにして近代文語文を解析 できるようにした形態素解析辞書です。「短単位」や「見出しの階層構造」な どのUniDicの特長をそのまま引き継いでいます。 解析対象は主として明治期の文語論説文(明治普通文)で、一般的な文章であ れば96〜98%程度の精度で解析できています。 (文学作品や難解な文章、他の時代のテキストでは精度が下がります。) Ver.1.0では見出し語を増やし(活用形展開後約25.4万語)、学習コーパスを 修正・追加したことにより全体に解析精度が向上しています。 形態素解析システム「和布蕪(MeCab)」と「茶筌(ChaSen)」で利用できる UTF-8版の辞書を公開しています。また、簡単に利用できるようにまとめた Windows用パッケージを用意しています。 近代文語UniDicは次のページから無償でダウンロードできます。 http://www.kokken.go.jp/lrc/index.php?UniDic%2F%B6%E1%C2%E5%CA%B8%B8%ECUniDic このページに解析サンプル・利用条件・学会のデモで使用したスライドなども 掲載しておりますので、ご覧いただければ幸いです。 ※なお、現代語版のUniDicについては次のページをご覧ください。 http://download.unidic.org -- 国立国語研究所 研究開発部門 言語資源グループ 小木曽 智信 (おぎそ としのぶ)