Re: ISO-2022-JP-MS について (LE-talk-ja 102) - Legacy Encoding Project

あさかわ

> 私もレガシーエンコーディングに関して新しいコードページを作るこ 
> とは，百
> 害あって一利無しだと思っています．あと，情報交換用コードと，シ 
> ステム内
> 部コードを区別すべきだと思います．

そうなのですよね。
ところが、内部コードとして、「楽」にしたつもりが、結局裏切り者 
が、外部コードにつかってしまったり。
(SJIS/EUC)
外部コードに恣意的に思想を混入(ISO2022-JP)させたりして、内 
部コードにまで影響を与えてきてるのが現状です。

> 今でさえ，レガシーエンコーディングが山のように有ります．それら 
> を使わざ
> るをえないケースというのはあるでしょう．しかし，今更，それらと 
> 違う新し
> いレガシーエンコーディングを作っても，どちらにせよ完全に解決で 
> きない問
> 題を，さらに複雑化するだけでしょう．

山のようにある様に見えるのだけど、実は、厳密に考えすぎてさらに複 
雑化させてる気がする。

もともと、SJISも初代EUCも、X0208のマッピングの 
違いだけです。
この場合、X0208の、空きエリアの使い方(いわゆる機種依 
存文字問題)を、どう考えるかの問題
しかし、この問題は、空きエリアに対して、積極的な対応(エ 
ラーにするなど)をしなければ
8bit環境では、透過的に扱えるので問題をアプリケーション側にゆだね 
ることができます。

その場合は、X0208と、X10646を相互変換する場合だけに 
問題が顕在化するはずなわけです。
ところが、主流の実装では、X0208の未定義を積極的にエラーに 
するので始末が悪い。

わたしは、この問題は、昔からPC9801にあわせりゃいいと思って 
いました。
PC9801がデファクトスタンダードなのは、否定しようがなかったはず。
ところが、これを、否定したい派閥が、インターネット標準に近い側に 
いたことが
問題を複雑化させてるわけです。

半角カナ、5c問題、丸付き文字。IBM文字

マイクロソフトが、Windows3.1で、PC9801の非 
X0208拡張を、標準に採用した見識は正しいと思っています。
(あえて問題があるとすると、新JISにしてしまった事ぐらい)
また、SJISとcp932は違うという派閥もありますが
SJISは、その制定当時から、すでに、PC9801拡張は含まれていた 
と考える方が自然です。
9801以外のシエアは誤差に等しく、新JIS/旧JISは、もと 
もと区別されていなかった
(わたしは誤差のメーカにいました)
SJISを、採用していたUNIXマシン、SONYのNEWSは、 
ちゃんと98文字がフォントファイルにあった。
なので、javaの、エイリアス問題は、問題にする方がおかしいと 
思っていました。

また、初代のEUCは、SJISと同じく、スクリーンエディタ 
の、処理を楽にする為につくられた様なものです。
EUCはその為に、半角カナをすてた
しかし、この初代のEUCは、忠実なISO-2022の初期状態を 
規定しただけと考えられるので
SJISよりは、はるかに、美しいものでした。
ところが、半角カナを導入し、バイト数＝文字長　ではなくなった時点 
で、内部コード(処理コード)と外部コードを区別するべき 
だったのです。
ここできちんと区別していなかったので、X0212拡張で、 
SJIS同様の、ご都合コードになってしまった。
X0212拡張は、ISO2022で拡張すればよかった。

てゆーか、EUCの拡張の詳細について、今回はじめて知りまし 
た。というか誤解してました。
１５年くらいUNIX系をつかってますが、クライアントマシンは 
Windowsでしたから
まったく気にせずに、euc-jp-msは、cp932のコードポイン 
トをEUCにしただけとおもってました。

しかし、euc-jp-msを決めた人たちは、なんで、cp932との 
互換をとらず、
NEC選定IBM拡張漢字をはずしておいて、msなんてサフィッ 
クスをつけたのでしょう？
X0212とNEC選定IBM拡張漢字と重なるから、X0212を 
優先したというのでしょうが
ここでまたもや、混乱を増幅させている。

ユニファイなんかUNICODEにまかせりゃ良かったのに。

ところで
euc-jp-msというエンコーディングで書かれた、ファイルは、この世に 
どのくらいあるのでしょう？
自分がそうだったからって訳ではないですが限定された環境じゃないの 
でしょうか？
いや、あったとしても、X0212部分はほとんど使用されていない 
のではないでしょうか？
NEC選定IBM拡張漢字がX0212部分に変換されてるだけでは 
ないでしょうか？

と、ぐだぐだ書いてきましたが。

やはり、なにか、別のコードページをつくるしかないだろうという結論 
に、森山さんがなったのは
理解しました。

Legacy Encoding Project

[LE-talk-ja 102] Re: ISO-2022-JP-MS について