C#、Vb2005 ユニコード(Unicode)

	VB.NET C#全般
1	羊の皮を着た狼 VB.NET
2	Form1、Form2の相互参照
3	Form1、Form2の相互参照２
4	VB.NET C# データ型の基本
5	VB.NET C# 文字列
6	VB.NET タイマー精度
7	BackgroundWorkerの魅力1..
8	BackgroundWorkerの魅力2..
9	VB6のタイマー
10	コントロールの配列をインデクサ..
11	コントロールの配列はジェネリク..
12	インデクサ（C#、VB.NET)
13	インデクサでＢｉｔ操作
14	Unicode 入門
15	デリゲート入門
16	マルチスレッド入門
17	イベント入門
18	デリゲートとイベント
18	インターフェースの基本

	RichTextBox関係
1	RichTextBoxの不思議
2	テキスト色付け高速化計画
3	VB.NET RichTextBox１
4	VB.NET RichTextBox ２

	RS-232C関係
1	RS-232Cの基礎
2	RS-232Cの何が変わった..
3	SerialPortクラス
4	Unicode(ユニコード)の壁
5	マルチスレッドの壁
6	RS-232C　サンプルコード
7	RS-232CのHEXモニタ
8	RS-232C 送信モジュール
9	RS-232Cのループテスト
10	RS-232Cのピンチェンジ..

	Socket通信
1	C#、VB2005 でSocket通信
2	サーバー複数接続

	プロセス間通信
1	プロセス間通信（送信側)
2	プロセス間通信（受信側）

質問、意見はこちらに

メモ帳とUnicode

『メモ帳』に何か書き込み、「名前を付けて保存（Ａ）」をプルダウンメニューから選択すると
保存ダイアログボックスが出てくる、このダイアログボックスの一番下の文字コードの
選択ボタンを押してみると、
「ANSI」
「Unicode」
「Unicode big endian」
「UTF-8」
の４つの選択コンボボックスが開く。
この４つの違いについて調べてみよう。
先ず「abcＡＢＣ」の6文字を『メモ帳』に書き込みこれを４つのモードで保存して、
保存したデータをバイト配列に読み込んで、読み込んだ順番にバイト配列を表示してみる。
ここで使用したコードはC#、VB.NETの両方のコードで下に表示しているので参考にしていただきたい。
ここでの「「ＡＢＣ」は大文字のABCでは無く、いわゆる大文字の２バイト文字のＡＢＣで有る。

「ANSI」

「ANSI」で保存したデータは
61-62-63-82-60-82-61-82-62
と保存されている。
基本的にANSIはいわゆるアルファベットと数字、記号であり、この保存方法はShift-Jisであろう。
Shift-Jis(code page 932)はANSIコードに２バイトの漢字コードを加えた物で、アルファベット等の256文字は
ＡＮＳＩと同じである。
61は16進法で表された「a」のアスキーコードである「-」は単なる表示上の区切りマークで書き込まれている訳ではない。
数字の61はc言語では「0x61」ＶＢでは「&H61」となり、１０進法では97となる。
82-60は「Ａ」、82-61は「Ｂ」、82-62は「Ｃ」である。

ちなみにWindows ９５はShift-Jisが標準で使われていました。

「Unicode」

FF-FE-61-00-62-00-63-00-21-FF-22-FF-23-FF
と保存されている、「FF-FE」は『BOM』と呼ばれるヘッダーである。
『メモ帳』のUnicodeと呼ばれる物は『UTF-16』でBMP （基本多言語面）を16ビット、
その他をサロゲートペアという仕組みを使い32ビットで指定する方式である。
WindowsXp以降のＯＳはこの方式が使われている。
「a」は「61-00」と２バイトで記録されている。
「Ａ」は「21-FF」、「Ｂ」は「22-FF」、「Ｃ」は「23-FF」と記録される。
「61-00」と「00」が先に来ているのは『リトル・エンディアン』と呼ばれるデータをメモリー上に配置する
方式で、低い桁が先に配置される、ＰＣは主にこの方法で配置される。
この反対に「00-61」と大きい桁から配置される方法も有る。
この方法が３番目の「Unicode big endian」である。

「Unicode big endian」

FE-FF-00-61-00-62-00-63-FF-21-FF-22-FF-23
と保存されている。
頭の２倍とのＢＯＭを見ると、「FF-FE」、「FE,FF」と区別されていることがわかる。

「UTF-8」

最後の「UTF-8」であるが、これもUnicodeと呼ばれるので注意されたい。
これは、
EF-BB-BF-61-62-63-EF-BC-A1-EF-BC-A2-EF-BC-A3
となっている。
「EF-BB-BF」がBOMである、UTFの場合はANSIの上位互換であり、
ＡＮＳＩの場合は256文字を１バイトで表すが、UTF-8の場合はこれに加えて
漢字などは３バイトで保存される。
「abc」は「61-62-63」とＡＮＳＩと同じであるが、
「Ａ」は「EF-BC-A1」、「Ｂ」は「EF-BC-A2」、「Ｃ」は「EF-BC-A3」と３バイトで記録される。
インターネットではこの形式が一般的であり、ＩＥなどの設定でUnicodeといえばUTF-8である。
FraneworkのStreamは何も指定しなければ、UTF-8で文字を吐き出しので注意が必要で有る。
これは漢字３バイト、英数字１バイトと言う英語圏優位の方式である。（？）

使用したコード

C#、VB.NETともに、フォームに textBox1（TextBox1）とbutton1（Button1）を貼り付ける。
更にopenFileDialog1（OpenFileDialog1）を貼り付ける。
テキストボックスのMulutilineをTrueにしておく。
なおファイルの読み書きにはusing(Using)を使用すべきところであるが、コードを見やすくする為と
usingに慣れていない人の為に本コードではusingを使用していないので了解されたし。

C#のコード



using System;

using System.Collections.Generic;

using System.ComponentModel;

using System.Data;

using System.Drawing;

using System.Text;

using System.Windows.Forms;

using System.IO;

namespace NotePadRead

{

    public partial class Form1 : Form

    {

        public Form1()

        {

            InitializeComponent();

        }

        private void button1_Click(object sender, EventArgs e)

        {

            //ファイルの選択ダイアログ

            openFileDialog1.ShowDialog(); 

            

            //選択されたファイル名

            string fileName= openFileDialog1.FileName;

	

            //ストリームによるファイルの読み込み

            FileStream sr = new FileStream(fileName, FileMode.Open, 

                                   FileAccess.Read);

            //バイト配列の定義

            byte[] bytes = new byte[sr.Length];

            //バイト配列に読み込む

            sr.Read(bytes, 0, bytes.Length);

            sr.Close();

            //バイト配列を文字列に変換

            string strByte = BitConverter.ToString(bytes);

            textBox1.Text = strByte;

        }

    }

}

VB.NETのコード

Option Strict On

Imports System.io

Public Class Form1

    Private Sub Button1_Click( ByVal sender As _

        System.Object, ByVal e As System.EventArgs) Handles Button1.Click

        OpenFileDialog1.ShowDialog()

        Dim fileName As String = OpenFileDialog1.FileName

        'ストリームによるファイルの読み込み

        Dim sr As FileStream = New FileStream(fileName,  _

        FileMode.Open, FileAccess.Read)

        'バイト配列の定義

        Dim bytes(CInt(sr.Length)) As Byte

        '//バイト配列に読み込む

        sr.Read(bytes, 0, bytes.Length)

        sr.Close()

        'バイト配列を文字列に変換

        Dim strByte As String = BitConverter.ToString(bytes)

        TextBox1.Text = strByte

    End Sub

End Class