[mecab-users 318] EUC-JP 辞書と UTF-8 辞書での読み仮名の変化

Back to archive index

TSUCHIYA Masatoshi tsuch****@imc*****
2008年 1月 30日 (水) 15:03:53 JST


土屋です.

辞書が EUC-JP の場合と,UTF-8 の場合とで,読み仮名が変わってしまう場合が
あるようなのですが,これはそういうものなのでしょうか?

mecab-0.96 で,以下の手順で確認できると思います.

% tar xzf ~/Desktop/mecab-ipadic-2.7.0-20070801.tar.gz 
% cd mecab-ipadic-2.7.0-20070801/
% ./configure --with-charset=utf8
% make
% echo 高野山 | iconv -f euc-jp -t utf8 | mecab -d `pwd` | iconv -f utf-8 -t euc-jp
高野山	名詞,固有名詞,一般,*,*,*,高野山,タカノヤマ,タカノヤマ
EOS
% make clean
% ./configure --with-charset=euc-jp
% make
% echo 高野山 | mecab -d `pwd`
高野山	名詞,固有名詞,一般,*,*,*,高野山,コウヤサン,コーヤサン
EOS

他に気付いたのは,

-昆布   名詞,一般,*,*,*,*,昆布,こぶ,こぶ
+昆布   名詞,一般,*,*,*,*,昆布,こんぶ,こんぶ

-珠算   名詞,一般,*,*,*,*,珠算,しゅざん,しゅざん
+珠算   名詞,一般,*,*,*,*,珠算,たまざん,たまざん

-久島   名詞,固有名詞,人名,姓,*,*,久島,くしま,くしま
+久島   名詞,固有名詞,人名,姓,*,*,久島,ひさしま,ひさしま

-堀田   名詞,固有名詞,人名,姓,*,*,堀田,ほった,ほった
+堀田   名詞,固有名詞,人名,姓,*,*,堀田,ほりた,ほりた

-上谷   名詞,固有名詞,地域,一般,*,*,上谷,かみだに,かみだに
+上谷   名詞,固有名詞,地域,一般,*,*,上谷,こうだに,こーだに

-本沢   名詞,固有名詞,地域,一般,*,*,本沢,ほんざわ,ほんざわ
+本沢   名詞,固有名詞,地域,一般,*,*,本沢,ほんさわ,ほんさわ

-笹川   名詞,固有名詞,人名,姓,*,*,笹川,ささかわ,ささかわ
+笹川   名詞,固有名詞,人名,姓,*,*,笹川,ささがわ,ささがわ

です.- で始まっている行が UTF8 な辞書の結果,+ で始まっている行が EUC-JP
な辞書の結果です.

読み仮名そのものは当らなくても仕方がないと思いますが,内容が同一で文字コー
ドが異なるだけの辞書と使って,同一の結果が得られないのは,ちょっと気にな
るかなあと思います.

-- 
土屋 雅稔 ( TSUCHIYA Masatoshi )




mecab-users メーリングリストの案内
Back to archive index