ASCII、ユニコード、UTF-8コードは説明します

ASCIIコード

  • ASCIIコード符号化は、空間スペース32(バイナリ00100000)として、128文字の合計を提供する、大文字Aは65(バイナリ01000001)です。128個のシンボルだけがゼロ所定の最前1の均一後ろバイト7をとり、(32個の制御シンボルなどをプリントアウトすることができません)。

ユニコード

  • その名の通りUnicodeは、それがすべてのシンボルのコーディングされます
  • Unicodeは確かに百万人以上のシンボルを収容することができ、その現在のサイズの大きなコレクションです。各シンボルを符号化することは異なっています。

- - >> Unicodeの問題

  • Unicodeは、それだけでバイナリ表記を提供し、単に記号の集合であるが、これは、バイナリコードで格納されるべき方法を指定しません
  • 最初の質問は、どのようにすることができますUnicodeとASCIIの違いは?
  • 第二の問題は、1バイトのみで十分である文字は、Unicodeの統一規制場合、各記号は3または4バイトで表現され、各文字の前に2のためにバインドされている、我々はすでに知っているということです3つのバイトに記憶するための膨大な廃棄物であり、0であり、テキストファイルのサイズが大きくなり、したがって、2〜3倍に、これは受け入れられません。
  • それらが引き起こす結果は以下のとおりです。
  1. 多くの異なるバイナリ形式があり、Unicodeを表すために使用することができる記憶手段ユニコード、種々のがありました。
  2. Unicodeは、インターネットの登場まで、時間の長い期間を促進することはできません。

UTF-8

  • UTF-8は、インターネット上でUnicodeを使用して最も広く使用されている実装です。他の実装では、さらに、インターネット上のUTF-16(文字2バイトまたは4バイト)、およびUTF-32(4バイト文字で表される)を含む、実質的にはありません。ここでの関係は、あるUTF-8 Unicodeは、実装の一つです
  • UTF-8最大の特徴:それは可変長符号化です。これは、バイト長がシンボルによって異なり、一つのシンボルの1〜4バイトであることができます。
  • UTF-8エンコーディングルールは単純です
  1. 単一バイトシンボルに対して、バイト0のセット、Unicodeコード・シンボルの後ろ7。そのため、英語のアルファベットのため、UTF-8エンコーディングとASCIIコードは同じです。
  2. 記号nバイト(N> 1)の場合、最初のバイトの最初のnビットが1に設定され、N + 1ビットは、0に均一リアセット10の最初の2バイトに設定されています。残りのビットは、Unicodeコードシンボルの全てを言及していません。

次の表は、符号化規則をまとめたもので、文字Xは、利用可能な符号化ビットを表します。
ここに画像を挿入説明


公開された58元の記事 ウォン称賛7 ビュー9242

おすすめ

転載: blog.csdn.net/Mr_OO/article/details/102871066