[mecab-users 402] Re: サロゲートペアの扱い

Back to archive index

Yuta Kawadai yutax****@gmail*****
2010年 2月 20日 (土) 00:05:21 JST


川代です。

返信ありがとうございます。

> 私の理解では、サロゲートペアで問題になるのは、UTF16 の場合ですので、
> UTF8では問題にならないはずです。

UTF8の辞書では問題にならないとのことで、安心いたしました。
ちなみにMeCab0.98からUTF16が実験的にサポートされていますが、UTF16の辞書にしてしまうと現状サロゲートペアは正しく扱えないということでしょうか。

追加の質問になってしまいますが、よろしくお願いします。


2010年2月18日10:33 Taku Kudo <taku****@chase*****>:
> 工藤拓ですです
>
> 私の理解では、サロゲートペアで問題になるのは、UTF16 の場合ですので、
> UTF8では問題にならないはずです。
>
> よろしくお願いします。
>
> 2010年2月18日10:03 川代雄太 <yutax****@gmail*****>:
>> 初めまして。川代と申します。
>>
>> MeCabの辞書にはUTF-8が使用できますが、サロゲートペアも正しく扱う(ユーザ辞書などに登録ができる、生文に含まれていても正しく解析できるなど)ことはできるのでしょうか。
>> また、サロゲートペアも正しく扱える場合、運用時に特別に考慮しなければならないことなどは有りますでしょうか。
>>
>> 以上、ご教示いただければ幸いです。
>> よろしくお願いいたします。
>>
>>
>> _______________________________________________
>> mecab-users mailing list
>> mecab****@lists*****
>> http://lists.sourceforge.jp/mailman/listinfo/mecab-users
>>
>>
>




mecab-users メーリングリストの案内
Back to archive index