Notas de estudio del rastreador web (1) - Comenzar con la biblioteca de solicitudes

Instalar la biblioteca de solicitudes

pip install requests

Se recomienda cambiar la fuente doméstica.

r = requets.get (url)

  • Construya un objeto Solicitudes que solicite recursos del servidor, y la función get () devuelve un objeto Respuesta que contiene los recursos del servidor

  • El objeto de respuesta contiene el contenido devuelto por el rastreador, importante

  • Propiedades del objeto de respuesta
    Inserte la descripción de la imagen aquí

  • Codificación: si no hay un conjunto de caracteres en el encabezado, la codificación se considera ISO-8859-1

  • r.apparent_encoding: el método de codificación analizado en función del contenido de la página web es más preciso que r.encoding

En general, puede pasar r.status_codeel resultado como un juicio, si devuelve 200, puede usar

r.text
r.enconding 
r.apparent_encoding 
r.content

Analizar la información en el objeto devuelto, de lo contrario 404 u otro significa que alguna razón causará una excepción

Marco de código común

try:
	r = requests.get(url, timeout=30)
	r.rasise_for_status()
	r.encoding = r.apparent_encoding
	return r.text
except:
	return "产生异常"
  • Formato completo
requests.get(url, params=None, **kwargs)

url: obtiene el enlace de la url de la página
param: parámetros adicionales en el formato de url, diccionario o flujo de bytes, opcional
** kwargs: 12 parámetros para controlar el acceso

Solicitud de excepción de bibliotecaInserte la descripción de la imagen aquí

Publicado 16 artículos originales · me gusta 0 · visitas 457

Supongo que te gusta

Origin blog.csdn.net/weixin_43951831/article/details/104842559
Recomendado
Clasificación