01. Introducción a los conceptos básicos de rastreadores

Juegos previos:

  1. ¿Estás en la oscuridad de la noche y quieres ver algunas imágenes que te harán estar más despierto pero sufres de falta de recursos?
  2. ¿Desea apresurarse rápidamente a comprar boletos de tren con éxito durante el período pico de viaje en vacaciones ...
  3. ¿Quiere localizar de forma rápida y precisa productos con la mejor reputación y calidad cuando compra online ...

¿Qué es un rastreador?

- 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。

El valor de los rastreadores:

  1. Aplicación práctica
  2. Empleo

¿Los reptiles son legales o ilegales?

  1. No esta prohibido por la ley
  2. Riesgo de ilegalidad
  3. Buenos reptiles reptiles maliciosos

Los riesgos que conllevan los rastreadores se pueden reflejar en los dos aspectos siguientes:

- 爬虫干扰了被访问网站的正常运营
- 爬虫抓取了收到法律保护的特定类型的数据或信息

¿Cómo evitar la mala suerte de ingresar al juego en el proceso de uso y escritura de rastreadores?

- 时常的优化自己的程序,避免干扰被访问网站的正常运行
- 在使用,传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户隐私
商业机密等敏感内容需要及时停止爬取或传播

Clasificación de rastreadores en escenarios de uso

- 通用爬虫:
    抓取系统重要组成部分。抓取的是一整张页面数据。
- 聚焦爬虫:
    是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
- 增量式爬虫:
    检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

Escudo de espada de reptil

Mecanismo anti-rastreo Los
sitios web del portal pueden evitar que los rastreadores rastreen los datos del sitio web mediante la formulación de estrategias o medios técnicos correspondientes.

Estrategia anti-escalada Los
programas de rastreo pueden descifrar el mecanismo anti-escalada en el sitio web del portal mediante la formulación de estrategias o medios técnicos relevantes, para obtener datos relevantes en el sitio web del portal.

Acuerdo de robots.txt:
acuerdo de caballeros. Especifica qué datos del sitio web pueden ser rastreados por los rastreadores y qué datos no pueden ser rastreados.

protocolo http

- 概念:就是服务器和客户端进行数据交互的一种形式。

Información de encabezado de solicitud común
-Usuario-Agente: la identidad del transportista de la solicitud
-Conexión: después de que se completa la solicitud, ya sea para desconectar o mantener la conexión

Información de encabezado de respuesta común
-Tipo de contenido: el tipo de datos que el servidor responde al cliente

Protocolo https:
-protocolo seguro de transferencia de hipertexto

Método de
cifrado
- cifrado de clave secreta simétrica - cifrado de clave secreta asimétrica - cifrado de
clave secreta de certificado

Siguiente: Módulo de explicación detallada de solicitudes

Supongo que te gusta

Origin blog.csdn.net/qq_40837794/article/details/109560445
Recomendado
Clasificación