UTF-8 codificación de caracteres

código ASCII: un byte bajo de 7 bits a 128 caracteres para Inglés, un alto cero uniforme. Más tarde, a medida que más y más de texto ASCII que se incorporó en el máximo de siete sido también incorporados a ella.

GB2312: aparición de los caracteres chinos, el código ASCII no puede ser satisfecha, por lo que no han sido GB2312.

UNICODE: Para todos los países a reconocer y utilizar un sistema unificado de codificación, inventó la codificación, también conocido como Unicode .

--------------------------------------------

Debido a lo dispuesto en el texto Unicode y asignación binario, pero no especifica cómo almacenar en la práctica, debido a que el número de bits necesario para tomar una palabra diferente no es fijo, los residuos de largo, demasiado corto y un poco de tiempo no se cumple, no hay algunas de las razones para el sistema operativo y así sucesivamente.

UTF-8: Como los países de internet, la aparición de la aldea global, los países las personas se reúnen para ver una pequeña película, una imagen puede aparecer en varios idiomas, por lo que necesitan un sistema unificado, eficiente y adecuada codificación códec, UNICODE como modelo, obviamente, no puede cumplir con estos tres requisitos, parece UTF-8:

  Otra UTF-16 , UTF-32 y similares. UTF-8 no es fija de codificación de longitud, pero una codificación de longitud variable. Puede ser de 1 a 4 bytes de un símbolo, byte de longitud varía en función del símbolo. Este es el tipo de diseño relativamente inteligente, si el primer bit de un byte es 0, entonces este es un carácter de un solo byte, si el primer bit es 1, el número de consecutivo 1, significa que el número de caracteres ocupan el carácter actual sección. Unicode código Nota codificación de caracteres Unicode y almacena codificados representación UTF-8 es diferente, por ejemplo, "rigor" son 4E25, UTF-8 de codificación es E4B8A5, este 7 que explica la, codificación UTF-8 en cuenta no sólo la codificación , almacenamiento también contemplado, E4B8A5 se almacena en el 4E25 basado en el código de identificación. Generales caracteres chinos en UTF-8 es de 3 bytes, el esquema de codificación es el más común 1110xxxx 10xxxxxx 10xxxxxx.

Artículo de referencia: https://blog.csdn.net/weixin_30402343/article/details/95836628

Supongo que te gusta

Origin www.cnblogs.com/YsirSun/p/12656451.html
Recomendado
Clasificación