Documentos rastreados de repente chino ilegible - Python

Cuando el rastreo de contenido web, puede haber caracteres no válidos, lo que resulta en todo el documento ilegible chino.

Todos se convierten sobre el formato del contenido:
å<9c>¨å<85>¨å<9b>½æ<94>¿æ³<95>æ<9c>ºå<85>³å¼<80>å±<95>社ä¼<9a>主ä¹<89>æ³<95>æ²»ç<90><86>念æ<95><99>è<82>²ï¼<8c>æ<98>¯ä¸­å¤®æ<94>¿æ³<95>å§<94>继20__å¹´é<83>¨ç½²å¼<80>å±<95>â<80><9c>è§<84>è<8c><83>æ<89>§æ³<95>è¡<8c>为ï¼<8c>ä¿<83>è¿<9b>æ<89>§æ³<95>å<85>¬æ­£â<80><9d>ä¸<93>项æ<95>´æ<94>¹æ´»å<8a>¨ä¹<8b>å<90><8e>ç<9a><84>å<8f><88>ä¸<80>é<87><8d>大å<86>³ç­<96>ï¼<8c>å<85>·æ<9c><89>é<87><8d>大è<80><8c>æ
Aquí Insertar imagen Descripción
En este trabajo, el principio del documento contenido en la pantalla normal de China, de repente, la parte posterior de la basura china, en cuyo caso, ¿cuál es la solución?

En primer lugar, cuando se abre un archivo, f = open('存储路径', 'a', encoding='utf-8')para definir la codificación. Los reptiles cuando el rastreo de contenido guardado, se puede escribirf.write(json.dumps(获取的内容, ensure_ascii=False) + '\n')

Para ignorar el carácter ilegal, a continuación, volver a leer el contenido del documento, la otra se pueden guardar en un archivo

f_path = '乱码的文档的路径'
f_content = '想要保存的正常文档的路径'
f = open(f_content, 'a', encoding='utf-8')
with open(f_path, 'r', encoding='utf-8', errors='ignore') as fr:
    for line in fr.readlines():
        f.write(line)

f.close()

Es esto dos líneas de código para resolver el problema


[Referencia artículo]
archivo de Python leer y escribir, a continuación, pasó con la declaración abierta

Ha publicado 190 artículos originales · alabanza 153 won · vistas 90000 +

Supongo que te gusta

Origin blog.csdn.net/qq_36852780/article/details/104505903
Recomendado
Clasificación