Python + request + unittest learning (1) - Razones y soluciones para errores ilegibles (problema UTF-8 BOM) en la lectura de texto - Code World

Python + request + unittest learning (1) - Razones y soluciones para errores ilegibles (problema UTF-8 BOM) en la lectura de texto

Others 2020-04-10 22:09:46 views: null

Fenómeno

Al leer el texto, a menudo habrá una serie de errores.
Ejemplo 1: Nuo Condado, de hecho, el comienzo del texto es H, http se muestra como Nuo Condado ttp
Ejemplo 2: Nuo costura, de hecho, el comienzo del texto es P, pública se muestra como Nuo ulic costura
, siempre y cuando la primera letra del texto para el Nuo pertenecen Este tipo de error se encontrará durante el uso de Python, Java, PHP, etc. Este tipo de error no tiene nada que ver con el lenguaje. La causa del error es UTF-8 BOM.
Razón

BOM es Byte Order Mark, que es la firma Unicode de los documentos UTF-8, es decir, los tres bytes de EF BB BF. Cuando la codificación del archivo se selecciona como UTF-8, el sistema agregará automáticamente los tres EF BB BF en el encabezado del archivo Bytes, y cuando se selecciona UTF-8 NO BOM, estos tres bytes se eliminarán automáticamente.
BOM es opcional y puede usarse para detectar si un flujo de bytes está codificado en UTF-8. Microsoft hace esta prueba, pero algunos softwares no hacen esta prueba y la tratan como un carácter normal.
Microsoft agregó tres bytes de EF BB BF frente a su propio archivo de texto en formato UTF-8. Los programas como el bloc de notas en Windows se basan en estos tres bytes para determinar si un archivo de texto es ASCII o UTF-8. Sin embargo, esto es solo una señal secreta hecha por Microsoft. No existe tal marca en los archivos de texto UTF-8 en otras plataformas.
Solución

1. Intente usar notepad ++, sublime, editplus y otros editores de texto que no agreguen directamente BOM
2. Use un editor binario como ultraedit para eliminar la BOM
3. Use el editor en 1 para volver a abrir el documento y guárdelo como UTF-8 sin BOM Codificación
4. Establezca la codificación en ASCII, por supuesto, esto también es un gran problema en chino
5. Elimine BOM con Python

import codecs 

data = open ("Test.txt"). read () 
if data [: 3] == codecs.BOM_UTF8: 
     data = data [3:] 
print data.decode ("utf-8")

　　

Enlace original: https://blog.csdn.net/mighty13/java/article/details/78077867

Supongo que te gusta

Origin www.cnblogs.com/zhaocbbb/p/12676366.html

Python + request + unittest learning (1) - Razones y soluciones para errores ilegibles (problema UTF-8 BOM) en la lectura de texto

Razones y soluciones para el tiempo de inicio prolongado de Python en la plataforma Windows

Errores comunes y razones en la programación de Python

Razones y soluciones para esperar el bloqueo de metadatos de la tabla en mysql

El lenguaje C implementa la conversión de utf-8 a utf-16. Malloc se utiliza en la función para solicitar memoria, mientras se verifica la legalidad y se generan errores.

Problema de instalación de la biblioteca de Python-whl no es una rueda compatible con esta plataforma Razones y soluciones

Razones y soluciones para la pérdida de precisión numérica JS

Razones y soluciones para la red lenta de máquinas virtuales Hyper-V

IntelliJ IDEA establece uniformemente la codificación en codificación utf-8 y el paquete jar de SpringBoot se ejecuta en la consola de la plataforma de Windows y resuelve los registros ilegibles

Errores comunes de Python y sus soluciones

[Lenguaje C] La solución al problema de los caracteres ilegibles al leer caracteres chinos en archivos de texto

Razones de la pantalla blanca frontal y algunas soluciones

Python + request + unittest learning (1) - Motivos e soluções para erros ilegíveis (problema UTF-8 BOM) na leitura de texto

Razones y Soluciones para Puertos Ocupados

Algunos errores y soluciones para configurar redis en windows

Se producen errores y soluciones al actualizar ipa en la tienda de aplicaciones de iOS

Errores y soluciones comunes al usar ESP-Prog / Jlink para la depuración de JTAG

[python] pozos y soluciones para la paralelización de python basada en multiprocesamiento.Pool

Errores comunes en la configuración de red VMWare y sus soluciones

Vuelva a escribir la clase de propiedades para realizar la lectura y escritura ordenadas de archivos de propiedades, agregar datos y resolver caracteres chinos ilegibles.

Python: La lectura de varios archivos y almacenar la salida para un archivo en particular

Errores y soluciones comunes de la base de datos MySQL

Razones y soluciones para fallas en el inicio del servidor después de instalar SQL2005 o fallas en el inicio del servidor después de la instalación

¿Cuál es la diferencia entre la anotación @Transactional y rollbackFor = Exception.class? 3 razones y soluciones para el error de anotación @Transactional

Número de error Más de 34 caracteres ilegibles en la columna 8 del informe de errores de regresión de crestas de SPSS

Razones y soluciones para algunas aplicaciones que no pueden capturar paquetes por proxy (captura de aleteo)

Usando scipy.misc.imread () método lee razones equivocadas en escala de grises y soluciones

[Lectura en papel] (31) Estudio en video del profesor Li Mu - 4. El arte de la investigación, razones, argumentos y garantías.

canal HTTP (para evitar la duplicación de gasto) y soluciones aforador archivos de datos de escritura en hdfs hunden demasiado pequeño problema

Introducción a Aidl ----- Razones y soluciones habituales para pisar fosos

Recomendado

Clasificación

Diario

Más

2024-05-19(0)

2024-05-18(30)

2024-05-17(4)

2024-05-16(22)

2024-05-15(5)

2024-05-14(10)

2024-05-13(7)

2024-05-12(22)

2024-05-11(31)

2024-05-10(32)