ASCIIコード
- ASCIIコード符号化は、空間スペース32(バイナリ00100000)として、128文字の合計を提供する、大文字Aは65(バイナリ01000001)です。128個のシンボルだけがゼロ所定の最前1の均一後ろバイト7をとり、(32個の制御シンボルなどをプリントアウトすることができません)。
ユニコード
- その名の通りUnicodeは、それがすべてのシンボルのコーディングされます。
- Unicodeは確かに百万人以上のシンボルを収容することができ、その現在のサイズの大きなコレクションです。各シンボルを符号化することは異なっています。
- - >> Unicodeの問題
- Unicodeは、それだけでバイナリ表記を提供し、単に記号の集合であるが、これは、バイナリコードで格納されるべき方法を指定しません。
- 最初の質問は、どのようにすることができますUnicodeとASCIIの違いは?
- 第二の問題は、1バイトのみで十分である文字は、Unicodeの統一規制場合、各記号は3または4バイトで表現され、各文字の前に2のためにバインドされている、我々はすでに知っているということです3つのバイトに記憶するための膨大な廃棄物であり、0であり、テキストファイルのサイズが大きくなり、したがって、2〜3倍に、これは受け入れられません。
- それらが引き起こす結果は以下のとおりです。
- 多くの異なるバイナリ形式があり、Unicodeを表すために使用することができる記憶手段ユニコード、種々のがありました。
- Unicodeは、インターネットの登場まで、時間の長い期間を促進することはできません。
UTF-8
- UTF-8は、インターネット上でUnicodeを使用して最も広く使用されている実装です。他の実装では、さらに、インターネット上のUTF-16(文字2バイトまたは4バイト)、およびUTF-32(4バイト文字で表される)を含む、実質的にはありません。ここでの関係は、あるUTF-8 Unicodeは、実装の一つです。
- UTF-8最大の特徴:それは可変長符号化です。これは、バイト長がシンボルによって異なり、一つのシンボルの1〜4バイトであることができます。
- UTF-8エンコーディングルールは単純です:
- 単一バイトシンボルに対して、バイト0のセット、Unicodeコード・シンボルの後ろ7。そのため、英語のアルファベットのため、UTF-8エンコーディングとASCIIコードは同じです。
- 記号nバイト(N> 1)の場合、最初のバイトの最初のnビットが1に設定され、N + 1ビットは、0に均一リアセット10の最初の2バイトに設定されています。残りのビットは、Unicodeコードシンボルの全てを言及していません。
次の表は、符号化規則をまとめたもので、文字Xは、利用可能な符号化ビットを表します。