Pide Python rastreador módulo y el contenido del texto de la decodificación

Las solicitudes que decir hoy sobre el módulo a modo de decodificación de contenido Web rastreo

La diferencia es response.text y response.content

El método de conseguir y enviar solicitudes objeto devuelve un objeto Respuesta, el objeto que se almacena toda la información devuelta por el servidor, una respuesta que incluye la cabeza, los códigos de estado de respuesta. En el que la reversión de nuevo a la parte web y habrá .Este contenido .text Liang objetos en
Que la diferencia entre los dos, el contenido intermedio se almacenan los datos de flujo de bytes , y el texto se almacenan de acuerdo con su codifica módulo solicita el contenido adivinar el contenido codificado en Unicode
 
A menudo usamos la salida requests.content del contenido va a ser descodificada (porque el contenido de la página está codificado con, pero en Python cadenas Unicode se forma actual, por supuesto, queremos ver esas cadenas, no queremos ver el lío de bytes, así que bajamos las cosas que necesita para descodificar)
 
Entonces cómo codificar (el foco de atención)
Antes de escribir el código que debemos encontrar la codificación de páginas web
 

En primer lugar que subir para llegar a encontrar la página en la página web de codificación

Paso: F12 == "" Elementos (página fuente) == "" Encontramos <head> charset dentro del logo, la página correspondiente es el que lo codifica

 

Obtener codificación de páginas web puede seguir para escribir código para ello

 1. Uso de salida de contenido

print(response.content.decode('utf-8'))  #decode('utf-8')的意思是以utf-8的编码的方式解码为Unicode

2. Uso de la salida de texto

response.encoding = 'utf-8'  #为请求的网页指定该网页的编码方式,这样text输出的时候,就不会瞎猜编码方式,而解出乱七八糟的鬼
print(response.text)

Código de Referencia (respuesta anteriormente son desde el interior hacia el código de referencia)

import requests


kw = {'wd':'巴基斯坦'}


headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}


# params 接收一个字典或者字符串的查询参数,字典类型自动转换为url编码,不需要urlencode()
#这就是requests库的其中一个方便的地方

response = requests.get("http://www.baidu.com/s", params = kw, headers = headers)


# 查看响应内容,response.text 返回的是Unicode格式的数据
print(response.text)


# 查看响应内容,response.content返回的字节流数据
print(response.content)


# 查看完整url地址
print(response.url)


# 查看响应头部字符编码
print(response.encoding)


# 查看响应码
print(response.status_code)

 

Algunos ven aquí tienen dudas, entonces yo uso de impresión (response.encoding) para ver la codificación de páginas web

Por otra parte, no decodificarlo? ? ? ¿Por qué no? ? ? ¿Por qué no? ? ? (Usted dice que no es capaz de conseguir mis espasmos)

 

Respuesta: Por supuesto que está bien, ja, ja, ja, ja (por lo que este es un huevo grande, por lo que hay dos maneras de llegar a la página que lo codifica)

Pero a veces puede estar equivocado: por ejemplo Baidu escalada con la impresión (response.encoding) se obtiene es un solo byte de codificación ISO-8859-1

Pero fui a la página web de Baidu Pulse F12 para ver la verdad 'UTF-8' codificación, entonces decidido a utilizar UTF-8 decodificación, ya que el código de un solo byte no puede ser representado Oh chino!

Así que a veces sale mal, puede probar estos dos métodos (actualmente que sé es que estos dos amigos, porque yo era un blanco)

Todos ellos son amor cerebros bellezas ..... ji, ji, ji, ji (decirlo no me des "me gusta"?)

-------------------------------------------------- --------------------------------------------

 

Por supuesto, alguien le preguntará, este código romper cosas no entiendo muy bien, ¿me pueden ayudar sort

Ja, ja, ja, ja, dame un poco más alabanza alabanza alabanza alabanza

Conocimiento gran carrera:

encode () y decodificar () y diferencia de medias

Inglés medios de decodificación de decodificación, codificar significado Inglés se codifica

representación de cadena Python es internamente codificación Unicode , por lo tanto, al hacer la transcodificación, como típicamente se requiere con el fin de Unicode de código intermedio , que es, en primer lugar la decodificación de otra cadena codificada (recepción) en Unicode, y de codificación Unicode (codificar) a otra codificación.

La acción es para decodificar la cadena de caracteres codificada convierte en otra codificación Unicode, como str101.decode ( 'utf-8'), muestra una cadena codificada conversión UTF-8 de bytes a la codificación Unicode str101

El papel es el de cadena de codificación Unicode codificado en otra codificación, tales como str101.encode ( 'gb2312'), indica para convertir el str101 cadena Unicode codificado en gb2312 codificada

Esto significa que es casi ha ha ha ha ha

Por último, ofrecer un mapa del tesoro (útil para usted guapo manera, recuerde que me diera un conjunto de elogio ah)

Publicado tres artículos originales · ganado elogios 2 · vistas 28

Supongo que te gusta

Origin blog.csdn.net/m0_46397094/article/details/105349772
Recomendado
Clasificación