キャラクターセットとは何ですか? Unicode 文字セットと ASCII 文字セット

文字セット (Character Set) は複数の文字の集合です。文字セットには多くの種類があります。各文字セットには異なる数の文字が含まれています。一般的な文字セットには、ASCII 文字セット、GBK 文字セット、Unicode (UTF-8) 文字セットが含まれます待って。詳しくご紹介しましょう。

ASCII 文字セット:

ASCII (American Standard Code for Information Interchange、American Standard Code for Information Interchange): 数字、英語、記号が含まれます。ASCII は 1 バイトを使用して文字を格納します。1 バイトは 8 ビットで、合計 128 個の文字情報を表現できます。これは英語と数字を表現するのに十分です。

GBK:

GBK は中国のコード テーブルで、数万の漢字とその他の文字が含まれており、ASCII エンコードとも互換性があります。GBK エンコードの中国語文字は通常 2 バイトの形式で格納されます。UTF-8 エンコード後、中国語は通常 3 バイトの形式で保存され、ASCII エンコード テーブルと互換性がある必要があります。すべての技術者は、UTF-8 文字セット エンコーディングを使用する必要があります。

Unicode 文字セット:

ユニコード。ユニコードとも呼ばれます。これは、コンピューター サイエンスの分野における業界標準です。UTF-8 は Unicode の一般的なエンコード方式です。文字デコードで使用する文字セットは、エンコードで使用する文字セットと一致していなければ文字化けが発生します。

たとえば、漢字の保存と表示のプロセスは次のように分析されます。

注: 英語と数字は、どの国のエンコードでも文字化けしません。

Stringクラスのコンストラクターをプログラムでエンコード・デコードする方法を選択することができますが、具体的な方法は以下の通りです。

文字列エンコーディング

文字列のデコード

1691476126260_decoding.png

おすすめ

転載: blog.csdn.net/Blue92120/article/details/132445003