TSUCHIYA Masatoshi
tsuch****@imc*****
2008年 1月 30日 (水) 15:03:53 JST
土屋です. 辞書が EUC-JP の場合と,UTF-8 の場合とで,読み仮名が変わってしまう場合が あるようなのですが,これはそういうものなのでしょうか? mecab-0.96 で,以下の手順で確認できると思います. % tar xzf ~/Desktop/mecab-ipadic-2.7.0-20070801.tar.gz % cd mecab-ipadic-2.7.0-20070801/ % ./configure --with-charset=utf8 % make % echo 高野山 | iconv -f euc-jp -t utf8 | mecab -d `pwd` | iconv -f utf-8 -t euc-jp 高野山 名詞,固有名詞,一般,*,*,*,高野山,タカノヤマ,タカノヤマ EOS % make clean % ./configure --with-charset=euc-jp % make % echo 高野山 | mecab -d `pwd` 高野山 名詞,固有名詞,一般,*,*,*,高野山,コウヤサン,コーヤサン EOS 他に気付いたのは, -昆布 名詞,一般,*,*,*,*,昆布,こぶ,こぶ +昆布 名詞,一般,*,*,*,*,昆布,こんぶ,こんぶ -珠算 名詞,一般,*,*,*,*,珠算,しゅざん,しゅざん +珠算 名詞,一般,*,*,*,*,珠算,たまざん,たまざん -久島 名詞,固有名詞,人名,姓,*,*,久島,くしま,くしま +久島 名詞,固有名詞,人名,姓,*,*,久島,ひさしま,ひさしま -堀田 名詞,固有名詞,人名,姓,*,*,堀田,ほった,ほった +堀田 名詞,固有名詞,人名,姓,*,*,堀田,ほりた,ほりた -上谷 名詞,固有名詞,地域,一般,*,*,上谷,かみだに,かみだに +上谷 名詞,固有名詞,地域,一般,*,*,上谷,こうだに,こーだに -本沢 名詞,固有名詞,地域,一般,*,*,本沢,ほんざわ,ほんざわ +本沢 名詞,固有名詞,地域,一般,*,*,本沢,ほんさわ,ほんさわ -笹川 名詞,固有名詞,人名,姓,*,*,笹川,ささかわ,ささかわ +笹川 名詞,固有名詞,人名,姓,*,*,笹川,ささがわ,ささがわ です.- で始まっている行が UTF8 な辞書の結果,+ で始まっている行が EUC-JP な辞書の結果です. 読み仮名そのものは当らなくても仕方がないと思いますが,内容が同一で文字コー ドが異なるだけの辞書と使って,同一の結果が得られないのは,ちょっと気にな るかなあと思います. -- 土屋 雅稔 ( TSUCHIYA Masatoshi )