[LE-talk-ja 118] LE-talk-ja での議論のまとめ

Back to archive index

MORIYAMA Masayuki moriy****@mirac*****
2006年 5月 16日 (火) 18:50:52 JST


森山です。

遅くなって申し訳ありません。

これまでの、LE-talk-ja メーリングリストでの議論のまとめです。

改めてアナウンスします。
明日、5/17(水) を、オフラインミーティング(BOF) を開きます。会場の方は
まだまだ余裕がありますので、ぜひご参加ください。

http://legacy-encoding.sourceforge.jp/wiki/index.php?%A5%AA%A5%D5%A5%E9%A5%A4%A5%F3%A5%DF%A1%BC%A5%C6%A5%A3%A5%F3%A5%B0%282006%2F05%2F17%29

よろしくお願いいたします。

------------------------------------------------------------------------
                         LE-talk-ja での議論のまとめ

                                                       作成日 2006/05/15
                                レガシー・エンコーディング・プロジェクト
                                                               森山 将之

■本プロジェクトとしての方針

  ・標準を作るわけではない。
  ・必要とされているものを実装する。

■スコープ

  ・Windows Codepage 932 で使用可能な文字を Unicode 経由で、日本語EUC
    符号化方式、7ビットJIS(ISO-2022-JP)符号化方式に変換できるようにする。

■全般

◎ JIS X 0208 で定義されていない文字を扱う場合は UTF-8 を使うべき

    ・既存のシステムすべてが短期間で UTF-8 に移行するわけではない
       - レガシーエンコーディング + UTF-8 (Unicode) という混在環境への移
         行と考えている。
       - 過去の資産はレガシーエンコーディングで蓄積されている。
       - 短期間のうちにレガシーエンコーディングが無くなり UTF-8 に取って
         代わられるわけではない。
    ・シフトJIS や日本語EUC から UTF-8 への移行コストが高い場合がある。
       - シフトJIS や日本語EUC に依存して開発されている
       - UTF-8 でのバイト数増加の問題
       - UTF-8 環境が整っていない
    ・レガシーエンコーディングからUTF-8への移行期間がありプロジェクト
      の成果物はこの期間で使われること想定している。

◎ IANAレジストリに登録しますか?

    ・可能であれば。
    ・登録する場合は、RFC への提案を先に行う。

◎ JIS X 0213 対応は?

    ・JIS X 0213 対応は Unicode への移行が必要と考えているので、レガシー
      エンコーディングでの対応は考えていない。
    ・Windows Vista での JIS X 0213:2004 対応は Unicode のみの対応で、
      コードページの追加は行わないことになっている。

◎ 携帯絵文字

    ・今回の開発ではスコープ外

◎ Macintosh 

    ・今回の開発ではスコープ外

■ISO-2022-JP-MS について

◎ MUA でのメール送信時に、機種依存文字などが送信されないように、文字
   コード変換ルーチン側で対処すべきでは?

    ・特定の用途に依存した変換を行うようにすると、用途毎に別々の変換を
      用意する必要が出てくると思われる。
       - MUA に依存した変換を行うと、テキストエディタで 7ビットJISコー
         ドを編集する場合など、ファイルを開くことが出来たものが保存で
         きないなどの問題が発生する

    ・文字種の制限の範囲や処理の仕方は、アプリケーション毎に異なるため、
      アプリケーション側で対処するのが望ましい。

◎ Unicode により国際化された MUA に変更を加えることなく機種依存文字が
   含まれたメールが受信できるように ISO-2022-JP という名前で使えるよう
   にすべき

    ・ISO-2022-JP という名前のまま拡張する事は考えていない。

◎ ユーザ定義文字をサポートするのは望ましくない
◎ ISO-2022-JP-MS といった、新しいレガシーエンコーディングを定義すべき
   ではなく、すでにある CP50221 の方が望ましい。

    ・CP50221 の方が望ましいのであれば、ISO-2022-JP-MS ではなく CP50221
      を実装するのでも良いと考えている。
    ・Windows のコードページ 50220, 50221, 50222 では、ユーザ定義文字
      と Unicode との変換は「仕様」である。
    ・ISO-2022-JP-MS ではなく CP50221 を実装する場合、仕様である以上、
      ユーザ定義文字は取り除いて実装するのは望ましくないと思われる。
    ・現実の問題として 7ビットJIS(ISO-2022-JP) で、Windows 機種依存文字
      が扱えない事が問題になっていて、ユーザ定義文字が扱えない事が、問題
      視されている事はあまり見かけない。その事を考えれば、ISO-2022-JP-MS、
      CP50221 のどちらでも良いと考えている。
    ・CP50221 のようなものを RFC として提案して受け入れられるか?
       - ESC $ B で 94x94 文字集合ではなく、114x94 文字集合を G0 集合に
         指示する事になってしまう。(GL 領域からはみ出る)

◎ CP5022X を扱えるテキストエディタ

    ・EmEditor
      http://www.emeditor.com/jp/
       - Windows がサポートしているコードページのみ
    ・Alpha
      http://alpha.sourceforge.jp/
       - Windows がサポートしているコードページ + α (EUC-JIS-2004など)

■CP51932 (Windows の EUC-JP のコードページ) について

◎ CP51932 は必要ないのでは?
◎ Unicode に移行すれば済む話なのでは?

    ・日本語EUC を使い PHP + PostgreSQL といった組み合わせで、システム
      構築している場合に、CP51932 が必要だと考えている。
    ・Perl/CGI など、日本語EUC で開発されているシステムでは、CP51932
      でデータが蓄積されているので、そのデータを正しく変換するためにも
      必要と考えている。

■困っている実例

  [pgsql-jp: 30677] ACCESSから漢字3が文字化け
  http://ml.postgresql.jp/pipermail/pgsql-jp/2003-August/014239.html
  ※漢字3 = IBM拡張文字

  [PHP-jp 10948] 漢字コードの変換方法を教えてください。
  http://ns1.php.gr.jp/php-jp/archives/msg10914.html

  [PHP-users 28961] 文字コード変換について(はしごたか)
  http://ns1.php.gr.jp/pipermail/php-users/2006-April/029478.html

  [Python-ml-jp 1821] 機種依存文字の扱いについて
  http://www.python.jp/pipermail/python-ml-jp/2002-September/001818.html

  [mmjp-users 366] 機種依存文字と arch (pipermail) について
  http://mm.tkikuchi.net/pipermail/mmjp-users/2003-May/000366.html
------------------------------------------------------------------------

--
森山 将之 moriy****@mirac*****
ミラクル・リナックス株式会社




Legacy-Encoding-talk-ja メーリングリストの案内
Back to archive index