Tomoyuki Asakawa
tom****@asaka*****
2006年 5月 19日 (金) 06:47:58 JST
あさかわ >> そういう意味では、WindowsのAPIも酷い。 > > 標準なAPIを使った後、正規化のAPIを用いることになる > かと思います。 標準APIでカバーしてない文字は、捨てられてしまうので。その あとでは、正規化不能です。 > > Transform Rule をちょろちょろと書けば言いだけの話に感じます。 > 極端な話、s/\x{301C}/\x{FF5E}/gすればいいことですしね。 いや、そこへ来る前にすてられたらなにもできないのよ。 euc-jp-ms -> CP932で、X0212文字は捨てられる。 すてられたら、ルール書こうにもかけないでしょ。 ただし、Transform Ruleが、入力側に働けば別ですけどね。 この手の実装って、出力しかかんがえてないのではありませんか? 入力したら、すでに内部はUNICODEでしょ。 入力に働けば euc-jp-ms上のX0212文字のうち、使用してるものだけ X0208エリアの未使用領域に振り分けて、読み込む 出力する時に、CP932上の外字領域に、再度変換する。 なんてことができる。