Re: オフラインミーティング(2006/05/17) (LE-talk-ja 180) - Legacy Encoding Project

森山です。

成瀬さん、FAQ の作成ありがとうございます。

ただいま、変換表を公開する為の準備をしています。

Unicode コンソーシアム配布の CP932.TXT では、Unicode→マルチバイトの変
換で、重複定義文字が考慮されていないため、そのままで使えないという問題
があるため、IBM ICU の ucm フォーマット形式を採用します。この変換表か
ら、機械的に次の 2 つの変換表を生成可能になります。

  ・マルチバイト→Unicode
  ・Unicode→マルチバイト

"NARUSE, Yui" <narus****@airem*****> wrote:
> 成瀬です。
> 昨日はおつかれさまでした。
> 
> とりあえず、昨日の会と今日のメール群を見て、
> このプロジェクトの方向性について、
> 概要なりなんなりに追記する必要があると考えました。
> 
> 勝手にWikiに追記しようとも思ったのですが、
> とりあえずWikiにFAQという項を作っておきました。
> http://legacy-encoding.sourceforge.jp/wiki/index.php?FAQ
> 
> 途中からこのMLを読んでいる方に、
> MLのログを全て読んでもらうのはつらいと思われるので、
> FAQを最初に読めば一通りの流れがわかるようにするとよいかな、と。
> 
> 
> ところで、わたしの解釈で、「このプロジェクトの意義」案。
> 
> 「Legacy Encoding Project」とは、そもそも、
> レガシーエンコーディングを混乱なくフェードアウトさせようというもの。
> 
> （ミーディングでの乾杯の時に言われていた通り、
> 　「レガシーエンコーディングの更なる発展と繁栄を祈る」
> 　ものではないと、笑。）
> 
> これを実現する手段として、[LE-talk-ja 118]にも挙げられている、
> > Windows Codepage 932 で使用可能な文字を Unicode 経由で、日本語EUC
> > 符号化方式、7ビットJIS(ISO-2022-JP)符号化方式に変換できるようにする。

補足しますと、eucJP-ms では、Unicode との変換では、JIS X 0212 補助漢字
を変換できますが、JIS X 0212 を他の符号化方式で使えるようには考えてい
ません。

> これが手段となる前提として以下がある。
> * レガシーエンコーディングはJIS系、SJIS系、EUC系の三つ
> * 今時の文字コード変換はUnicodeによるUCS正規化で行われる
> * よって「キャラクタセット」とはUnicodeとの変換表のこと
> * 既に"ISO-2022-JP", "Shift_JIS", "EUC-JP"といった名前の変換表は、
> 　各OSSが提供しているが、独自の変更が加えられていて、変更できない。
> * 変換表のデファクトとしてWindows系のものがある。
> 
> 以上のような事情から、
> 変換表の名前（キャラクタセット名）は既存のものを使えない
> ∵既存のものは別の変換表を指しているから
> →別の名前を定義する必要がある
> →かと言って全く新しいものを定義するのは混乱を助長する
> →CP932, CP51932, eucJP-ms, CP50221
> 　（CP*の典拠はMicrosoftの実装、eucJP-msはTOG/JVC）
> 
> -- 
> NARUSE, Yui  <narus****@airem*****>
> DBDB A476 FDBD 9450 02CD 0EFC BCE3 C388 472E C1EA
> _______________________________________________
> Legacy-Encoding-talk-ja mailing list
> Legac****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/legacy-encoding-talk-ja

--
森山 将之 moriy****@mirac*****
ミラクル・リナックス株式会社

Legacy Encoding Project

[LE-talk-ja 180] Re: オフラインミーティング(2006/05/17)