MORIYAMA Masayuki
moriy****@mirac*****
2006年 5月 19日 (金) 13:11:35 JST
森山です。 成瀬さん、FAQ の作成ありがとうございます。 ただいま、変換表を公開する為の準備をしています。 Unicode コンソーシアム配布の CP932.TXT では、Unicode→マルチバイトの変 換で、重複定義文字が考慮されていないため、そのままで使えないという問題 があるため、IBM ICU の ucm フォーマット形式を採用します。この変換表か ら、機械的に次の 2 つの変換表を生成可能になります。 ・マルチバイト→Unicode ・Unicode→マルチバイト "NARUSE, Yui" <narus****@airem*****> wrote: > 成瀬です。 > 昨日はおつかれさまでした。 > > とりあえず、昨日の会と今日のメール群を見て、 > このプロジェクトの方向性について、 > 概要なりなんなりに追記する必要があると考えました。 > > 勝手にWikiに追記しようとも思ったのですが、 > とりあえずWikiにFAQという項を作っておきました。 > http://legacy-encoding.sourceforge.jp/wiki/index.php?FAQ > > 途中からこのMLを読んでいる方に、 > MLのログを全て読んでもらうのはつらいと思われるので、 > FAQを最初に読めば一通りの流れがわかるようにするとよいかな、と。 > > > ところで、わたしの解釈で、「このプロジェクトの意義」案。 > > 「Legacy Encoding Project」とは、そもそも、 > レガシーエンコーディングを混乱なくフェードアウトさせようというもの。 > > (ミーディングでの乾杯の時に言われていた通り、 > 「レガシーエンコーディングの更なる発展と繁栄を祈る」 > ものではないと、笑。) > > これを実現する手段として、[LE-talk-ja 118]にも挙げられている、 > > Windows Codepage 932 で使用可能な文字を Unicode 経由で、日本語EUC > > 符号化方式、7ビットJIS(ISO-2022-JP)符号化方式に変換できるようにする。 補足しますと、eucJP-ms では、Unicode との変換では、JIS X 0212 補助漢字 を変換できますが、JIS X 0212 を他の符号化方式で使えるようには考えてい ません。 > これが手段となる前提として以下がある。 > * レガシーエンコーディングはJIS系、SJIS系、EUC系の三つ > * 今時の文字コード変換はUnicodeによるUCS正規化で行われる > * よって「キャラクタセット」とはUnicodeとの変換表のこと > * 既に"ISO-2022-JP", "Shift_JIS", "EUC-JP"といった名前の変換表は、 > 各OSSが提供しているが、独自の変更が加えられていて、変更できない。 > * 変換表のデファクトとしてWindows系のものがある。 > > 以上のような事情から、 > 変換表の名前(キャラクタセット名)は既存のものを使えない > ∵既存のものは別の変換表を指しているから > →別の名前を定義する必要がある > →かと言って全く新しいものを定義するのは混乱を助長する > →CP932, CP51932, eucJP-ms, CP50221 > (CP*の典拠はMicrosoftの実装、eucJP-msはTOG/JVC) > > -- > NARUSE, Yui <narus****@airem*****> > DBDB A476 FDBD 9450 02CD 0EFC BCE3 C388 472E C1EA > _______________________________________________ > Legacy-Encoding-talk-ja mailing list > Legac****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/legacy-encoding-talk-ja -- 森山 将之 moriy****@mirac***** ミラクル・リナックス株式会社