[Rastreador web de Python] 150 conferencias para obtener fácilmente las notas del curso de pago del rastreador web de Python Conceptos básicos de un rastreador

1. Conceptos básicos sobre rastreadores

1.1 Concepto

Un rastreador es un programa que simula el comportamiento de una persona que solicita un sitio web. Solicita automáticamente una página web, captura los datos y luego usa ciertas reglas para extraer datos valiosos.

1.2 Escenarios de la aplicación del rastreador:

  1. Motor de búsqueda (Baidu o Google)
  2. Bole en línea
  3. Asistente de compras de Huihui
  4. análisis de los datos
  5. Software de recogida de entradas, etc.

1.3 ¿Por qué utilizar Python para escribir rastreadores? Comparando varios idiomas de alto nivel:

 

2. Introducción al protocolo HTTP

2.1 Protocolo HTTP 

Se refiere al Protocolo de transferencia de hipertexto, Protocolo de transferencia de hipertexto, que es un método para publicar y aceptar páginas HTML. El número de puerto del servidor es el puerto 80.

El protocolo HTTPS es un protocolo de encriptación del protocolo HTTP. La capa SSL se agrega bajo HTTP y el número de puerto del servidor es el puerto 443.

2.2 URL 

2.3 Método de solicitud común

HTTP tiene 8 métodos de solicitud, los que se usan comúnmente son  obtener solicitud y publicar solicitud

Para implementar mecanismos anti-rastreadores, algunos sitios web y servidores a menudo no juegan a las cartas de acuerdo con el sentido común, como cambiar una solicitud que originalmente usaba el método get por una solicitud de publicación.

2.4 Parámetros de encabezado de solicitud comunes

En el protocolo HTTP, se envía una solicitud al servidor, los datos se dividen en tres partes, la primera en la url, la segunda en el cuerpo y la tercera en el encabezado.

  1. user-agent: nombre del navegador, identidad, rastreador disfrazado , al solicitar una página web, puede saber desde qué navegador se envía la solicitud a través de este parámetro; si user-agent = python, se puede usar fácilmente para sitios web con mecanismo anti-crawler Rastreador al juzgar la solicitud.
  2. Referer: indica de qué URL provienen los datos actuales y también se puede utilizar como tecnología anti-crawler
  3. cookie: Úselo para determinar si la identificación es de la misma persona en una solicitud de varias palabras para identificar la identidad

2.5 Códigos de estado de respuesta común

 

Supongo que te gusta

Origin blog.csdn.net/weixin_44566432/article/details/108529784
Recomendado
Clasificación