Re: LE-talk-ja での議論のまとめ (LE-talk-ja 157) - Legacy Encoding Project

あさかわ

>> そういう意味では、WindowsのAPIも酷い。
>
> 標準なAPIを使った後、正規化のAPIを用いることになる 
> かと思います。

標準APIでカバーしてない文字は、捨てられてしまうので。その 
あとでは、正規化不能です。

>
> Transform Rule をちょろちょろと書けば言いだけの話に感じます。
> 極端な話、s/\x{301C}/\x{FF5E}/gすればいいことですしね。

いや、そこへ来る前にすてられたらなにもできないのよ。

euc-jp-ms -> CP932で、X0212文字は捨てられる。
すてられたら、ルール書こうにもかけないでしょ。

ただし、Transform Ruleが、入力側に働けば別ですけどね。
この手の実装って、出力しかかんがえてないのではありませんか？
入力したら、すでに内部はUNICODEでしょ。

入力に働けば
euc-jp-ms上のX0212文字のうち、使用してるものだけ
X0208エリアの未使用領域に振り分けて、読み込む
出力する時に、CP932上の外字領域に、再度変換する。
なんてことができる。

Legacy Encoding Project

[LE-talk-ja 157] Re: LE-talk-ja での議論のまとめ