Camino de reptiles
Plan de aprendizaje semanal del rastreador:
La siguiente imagen es la preparación del rastreador.
Caso de proxy rápido de rastreo de rastreadores:
URL del sitio web = "https://www.kuaidaili.com/free/"
Para este rastreo, usamos la biblioteca de solicitudes de terceros.
Requests es una biblioteca de cliente HTTP de Python, podemos usarla para obtener el código fuente HTML
import requests
url="https://www.kuaidaili.com/free/"
headers={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36"
}
#这里进行了头部的伪装
res=requests.get(url,headers=headers)
res.encoding="utf-8"
html=res.text
Luego usamos xpath para implementar el cruce de etiquetas para obtener el contenido que necesitamos
e=etree.HTML(html)
ip_list=e.xpath("//tr/td[1]/text()")
port_list=e.xpath("//tr/td[2]/text()")
#采用zip迭代的方式打印输出
for ip,port in zip(ip_list,port_list):
str="ip:"+ip+"\t端口号:"+port
print(str)
resumen
Este artículo explica principalmente la estructura y aplicación de los rastreadores web, así como el caso de la implementación de los rastreadores en Python. Espero que se centre en el flujo de trabajo del rastreador web y la forma en que Requests implementa las solicitudes HTTP en este artículo.