day10- codificación de caracteres

Esta sección más teórica, para tomar buena comprensión, si no entender, hay que tomar nota de las conclusiones

(Así que, básicamente, no he escrito algo más)

tabla ASCII:
1, sólo es compatible con la cadena de Inglés
2, 8 bits número binario correspondiente a una cadena de Inglés

GBK Tabla:
1, soporta caracteres en inglés, los caracteres chinos
2,
8 bits (8 bits = 1Bytes) número binario correspondiente a una cadena de Inglés
de 16 bits (16 bits = 2 bytes) corresponde a una cadena de número binario chino


Unicode (el uso de memoria unificada Unicode):
1,
naciones de caracteres compatibles
y naciones personaje tiene una relación correspondiente entre el
2,
16 bits (16 bits = 2 bytes) binarias corresponde número en una cadena chino
de raro individuo utilizará 4Bytes, 8Bytes


tabla Unicode:
la memoria
de --------- ---------- digital de formato Unicode carácter humano
| |
| |
|
dura |
|
| |
| |
formato GBK formato binario Shift-JIS binario

codificaciones de caracteres antiguos se pueden convertir a Unicode, pero no pueden unicode Huzhuan

 

UTF-8:
Inglés -> 1Bytes
personajes -> 3Bytes

 

Conclusión:
1, la retención de la memoria Uso de Unicode, podemos cambiar eso en el disco en un formato de
caracteres chinos Inglés + - "unicode-" GBK
Inglés + japonesa - "unicode-" Shift-JIS
Palais carácter "-unicode-" UTF-8

2, los problemas de acceso a archivos de texto ilegible
existen en estado de agitación: la solución es, el formato de codificación se debe establecer para apoyar la cadena de formato de papel
para tomar el caos: la solución es, ¿qué archivos formatos tales como memoria de disco duro codificado, debe ser ¿Qué formato de codificación se lee en la memoria

 

3, intérprete de Python lee el valor por defecto de codificación de archivos
por defecto python3:. UTF 8
python2 defecto: ASCII

Especificar el encabezado del archivo para modificar la codificación por defecto:
el archivo py primera línea de escritura:
#coding: GBK

4, para asegurar que las dos fases no son ilegibles regla básica antes de ejecutar el programa de pitón:
especifica el encabezado del archivo de
los archivos de formato de codificación almacenados originalmente en el disco duro que se utiliza: # de codificación


. 5,
a python3 tipo predeterminado de depósito directo en formato str Unicode, en cualquier caso no ser ilegible
garantizar tipo python2 str de distorsión no es
x = u 'on'


6 para
intérprete cadena python2 tiene dos tipos: STR, Unicode
# tipo STR
x = 'on' valor de cadena # especificado por el valor formato de codificación de cabecera almacenado en el espacio de memoria de variables
# tipo Unicode
x = u ' el '# salvó la fuerza como unicode

Supongo que te gusta

Origin www.cnblogs.com/xiao-zang/p/12481967.html
Recomendado
Clasificación