python-- codificación de caracteres

En primer lugar, la introducción de

tipo de cadena, el contenido de un archivo de texto se compone de caracteres, pero los personajes se relacionan con el acceso, tenemos que considerar el tema de la codificación de caracteres

En segundo lugar, la base de conocimientos

Tres de hardware básico

Se refiere al hardware de tres núcleos: CPU, memoria y disco duro

procesos de software en ejecución

  1. Antes de ejecutar el código de software y el software y los datos relacionados se almacenan en el disco duro
  2. Iniciar cualquier software de datos se lee en la memoria del disco duro, y luego se elimina de la memoria por la ejecución de la instrucción de la CPU y
  3. Software que se ejecuta en los datos generados se almacenan primero en la memoria, si desea almacenar datos de forma permanente, es necesario escribir los datos de la memoria del disco duro

Editor de texto para leer el contenido del archivo de proceso

  1. Iniciar un editor de texto
  2. Editor de archivos leerá el contenido del archivo desde el disco duro en la memoria
  3. editor de texto se acaba de leer en el contenido de la memoria se visualiza en la pantalla

la ejecución de procesos archivo pitón intérprete

  1. Inicio pitón intérprete, a continuación, iniciar el equivalente de un editor de texto
  2. Python intérprete equivalente al editor de texto, desde el contenido de la test.py disco duro lee en la memoria
  3. intérprete de Python interpreta el contenido de la memoria acaba de leer, comienzan a identificarse sintaxis de Python

En tercer lugar, la introducción de codificación de caracteres

1. ¿Qué es la codificación de caracteres

Cuando los seres humanos y computadoras de cambio, todos los seres humanos pueden leer los caracteres, como los caracteres chinos y caracteres ingleses, etc.

El equipo sólo puede reconocer los números binarios

Binario: el 0 y 1. El ordenador se basa en el trabajo eléctrico, características eléctricas son de alta y baja, desde el nivel lógico alto humano que corresponde al número 1, el número 0 corresponde a un nivel bajo. Que determina directamente el ordenador reconoce los dígitos 0 y 1

2. La historia de la codificación de caracteres

Una etapa (a dominante): tabla ASCII

  • Sólo es compatible con caracteres ingleses
  • 8 bits número binario correspondiente a una cadena de Inglés

De dos etapas (caos): mesa de GBK (China)

  • Es compatible con caracteres del alfabeto inglés, los caracteres chinos
  • 8 bits número binario correspondiente a una cadena de Inglés
  • De 16 bits número binario correspondiente a una cadena de caracteres chinos

Tres etapas (puntos largos estarán juntos): Unicode (memoria unificada uso de Unicode) -> UTF-8

  • naciones de caracteres compatibles
  • 16 bits de números binarios corresponde a una cadena de caracteres chinos, caracteres raros individuales serán utilizados 4bytes, 8Bytes
  • codificaciones de caracteres antiguos se pueden convertir a Unicode, pero no por la conversión entre Unicode

3. La codificación y decodificación

Por el carácter de Unicode en la memoria, y convertida por el Unicode en otros procesos de codificación se denominan para codificar

Unicode convertido por una memoria de caracteres y se convierte en un Unicode codificada por otros procedimientos, se llama decodificación de decodificación

El origen de 4.Utf-8

Nota: Si se guarda en el disco duro está en formato binario GBK, la entrada del usuario lata Chino e Inglés, si la empatía se guarda en formato binario en el disco duro Shift_JIS, el usuario sólo puede entrar en japonés e Inglés ...... si Quiero lograr una convivencia de carácter multinacional, cómo hacerlo?

Aunque ha habido Unicode, pero si se utiliza contiene un gran carácter multinacional de caracteres en inglés, utilizando el formato Unicode para almacenar adicional ocupará el doble de espacio, pero el espacio ocupado no es el problema más grave, pero el tiempo - leer el consumo de memoria extra cuando el disco duro tiempo de duplicación, por lo que la memoria binaria Unicode escrito en el disco o transmitida en la red se debe convertir en un formato simplificado --utf-8

En cuarto lugar, la aplicación de codificación de caracteres

Aprender la codificación de caracteres es problema de la basura no se produce con el fin de acceder a los caracteres:

1. Uso de una memoria fija independientemente acceder a todos los caracteres Unicode ilegibles no ocurrirá

2. Estamos en condiciones de modificar / tienda codificado manera, si la codificación se establece de forma incorrecta aparecerá ilegible. problema de la basura se divide en dos: desordenado torreón, lectura caótica

  • Depósito desastre : Si la entrada del usuario se incluye en china y caracteres japoneses, si es simplemente para mantener shift_JIS, japonesa se puede escribir en el disco duro es normal, y debido a los caracteres chinos no se encuentran en la correspondencia entre las causado caos EXIST shift_jis
  • La lectura de caos : si los datos se almacenan en el formato del disco duro shift_JIS, extracción formato GBK en la memoria estudiar el caos

3. Los archivos de texto Texto acceso de editor

editor de texto, se accede a archivos de texto, y el contenido de un archivo de texto que contiene los archivos de texto completo están relacionados con problemas de codificación de caracteres

Las dos primeras etapas de la implementación del intérprete 4.python documento

archivo Py para llevar a cabo las dos primeras etapas del problema es el intérprete de Python para leer un archivo de texto, un editor de texto para escribir las dos primeras etapas de la lectura de archivos de texto sin distinción alguna, para asegurar que la lectura no es basura, es necesario adoptar cuando el intérprete de Python para leer el archivo configuración de codificación de archivos escritos originalmente para el formato de codificación de bits difícil, si no se establece, por defecto python3 es UTF-8, por defecto es ASCII python2

Para especificar la cabecera del fichero modificar la codificación predeterminada: # Sólo tiene que escribir la codificación en la primera línea: el archivo original se escribe en el disco duro utilizando el formato de codificación

La tercera fase de la ejecución del intérprete 5.python documento

a. Establecer cabecera sirven sólo para asegurar que la parte delantera de la operación de pitón y sin distorsión dos etapas, las dos primeras etapas después el contenido del archivo py se almacenará en la memoria en formato Unicode.

b. Cuando nos enfrentamos a un nombre de sintaxis específica = "on", ya que el formato predeterminado cadena Unicode python3 tanto tiempo como el espacio de memoria de la aplicación para almacenar la cadena "sobre", no hay ningún problema de codificación de caracteres

c. python2 la prevalencia es anterior en Unicode, y por lo tanto se especifica python2 de acuerdo con la cabecera del fichero codificado para almacenar el valor de un tipo de cadena, por lo que pueden producirse problemas

e. cadena de bits de memoria para remediar python2, además de u aparecido antes de la cadena se ve obligado Unicode, por lo que la distorsión no se plantea el problema

Supongo que te gusta

Origin www.cnblogs.com/zhuyouai/p/12482984.html
Recomendado
Clasificación