Esta sección más teórica, para tomar buena comprensión, si no entender, hay que tomar nota de las conclusiones
(Así que, básicamente, no he escrito algo más)
tabla ASCII:
1, sólo es compatible con la cadena de Inglés
2, 8 bits número binario correspondiente a una cadena de Inglés
GBK Tabla:
1, soporta caracteres en inglés, los caracteres chinos
2,
8 bits (8 bits = 1Bytes) número binario correspondiente a una cadena de Inglés
de 16 bits (16 bits = 2 bytes) corresponde a una cadena de número binario chino
Unicode (el uso de memoria unificada Unicode):
1,
naciones de caracteres compatibles
y naciones personaje tiene una relación correspondiente entre el
2,
16 bits (16 bits = 2 bytes) binarias corresponde número en una cadena chino
de raro individuo utilizará 4Bytes, 8Bytes
tabla Unicode:
la memoria
de --------- ---------- digital de formato Unicode carácter humano
| |
| |
|
dura |
|
| |
| |
formato GBK formato binario Shift-JIS binario
codificaciones de caracteres antiguos se pueden convertir a Unicode, pero no pueden unicode Huzhuan
UTF-8:
Inglés -> 1Bytes
personajes -> 3Bytes
Conclusión:
1, la retención de la memoria Uso de Unicode, podemos cambiar eso en el disco en un formato de
caracteres chinos Inglés + - "unicode-" GBK
Inglés + japonesa - "unicode-" Shift-JIS
Palais carácter "-unicode-" UTF-8
2, los problemas de acceso a archivos de texto ilegible
existen en estado de agitación: la solución es, el formato de codificación se debe establecer para apoyar la cadena de formato de papel
para tomar el caos: la solución es, ¿qué archivos formatos tales como memoria de disco duro codificado, debe ser ¿Qué formato de codificación se lee en la memoria
3, intérprete de Python lee el valor por defecto de codificación de archivos
por defecto python3:. UTF 8
python2 defecto: ASCII
Especificar el encabezado del archivo para modificar la codificación por defecto:
el archivo py primera línea de escritura:
#coding: GBK
4, para asegurar que las dos fases no son ilegibles regla básica antes de ejecutar el programa de pitón:
especifica el encabezado del archivo de
los archivos de formato de codificación almacenados originalmente en el disco duro que se utiliza: # de codificación
. 5,
a python3 tipo predeterminado de depósito directo en formato str Unicode, en cualquier caso no ser ilegible
garantizar tipo python2 str de distorsión no es
x = u 'on'
6 para
intérprete cadena python2 tiene dos tipos: STR, Unicode
# tipo STR
x = 'on' valor de cadena # especificado por el valor formato de codificación de cabecera almacenado en el espacio de memoria de variables
# tipo Unicode
x = u ' el '# salvó la fuerza como unicode