[LE-talk-ja 239] Re: 重複符号化文字

Back to archive index

Kazuhiro Kazama kazam****@mac*****
2006年 5月 23日 (火) 05:44:01 JST


On 2006/05/22, at 23:04, Nozomi Ytow wrote:
>> レガシーエンコーディング間の変換で重複符号化文字を維持したま 
>> ま変換可能
>> にする事に関しては、Windows と異なる重複符号化文字の扱 
>> いをする事は、メ
>> リットよりもデメリットの方が多くなってしまうのではないかと思 
>> います。
>
> それはそれで理解できますが、round trip を保証しなかった 
> り、区別できる
> ものを区別しなかったりというのは、いくら元の文字集合が集合に 
> なって
> いないからとは言え変換系としては「えっ」思わせるので、ドキュメ 
> ントに
> メリットデメリットを列挙した上で、それでもこういう仕様にするの 
> だと
> 書いておくべきだと思います。

結局レガシーエンコーディングに関しては,バグ(問題)も仕様(泣) 
なのかもしれないと思います.前向きな方法で問題を完全に解消できれ 
ばいいのですが,結局過去の因縁を引きづりすぎていて,完全に解消で 
きない.としたら,変えない方が,少なくとも問題をこれ以上増やさな 
いことになるからです.問題を増やされるのは非常に困ります.

ところで,今この種の「バッドノウハウ」をまとめることを考えていま 
す.たとえば,MSの国際化本の新版には,"Risky  
Characters"という章があり(たぶん新設),ここに問題を起こしそう 
な文字とその状況が分析されていて,非常に興味深いです.

同じような,日本語関連のレガシーエンコーディングの「バッドノウハ 
ウ」や「危険な文字」を,とりあえずフリー形式で蓄積していこうかな 
というわけです.他の人は,どう思われるでしょうか?(あまり 
同意が得られなければ,個人的にやろうと思っていますが)

なお,最終的には,それをさらにまとめあげてドキュメントに追加する 
のが良いと思います.実装者に詳細な文字コードに関する知識を要求す 
るのは過酷ですが,eucJP-msとCP51932の議論で,この実 
装・利用に関する判断はとても簡単じゃないぞ…と感じたので,少なく 
とも問題が生じるような状況の使い分けの目安は明確に示唆すべきでは 
ないかと.

そして,さらに進んだ知識を得たい人のために,バッドノウハウ集を残 
しておく(最終ドキュメントを作るための資料という形か,ドキュメン 
トの付録という形かはわからないけど)というのがよいかと.

> 「現実問題としてコードの登場頻度が少ないだろう」という理由より 
> は、
> 内部コードへの依存性が高まってしまうので共通の文字コード変換
> 仕様としてはモジュラリティの観点から適当でない、という理由の方が
> 説得力があると思います。

確かに頻度を例として挙げるのは,あまりよくありませんね.

あと,UCS正規化方式では,内部コードの状態で流出する可能性も 
(特に今後は)高いという点もあるでしょう.

# 今日は出張でメールが読めません.
---
Kazuhiro Kazama
kazam****@mac*****






Legacy-Encoding-talk-ja メーリングリストの案内
Back to archive index