Registro de código de grupo de proxy de IP del rastreador - Code World

Registro de código de grupo de proxy de IP del rastreador

Others 2021-03-29 07:05:55 views: null

Al usar Python para rastrear y visitar un sitio web, la mayoría de las veces debe tener cuidado de que el acceso a la IP sea demasiado frecuente y el sitio web esté bloqueado.

En este momento, debe utilizar el grupo de proxy IP
. Se utiliza el sitio web de IP gratuito en Internet: proxy oculto alto nacional
Inserte la descripción de la imagen aquí

Código:

import requests
import time
import random
from lxml import etree

#  获取
def get_ip_list(headers, page):
    ip_list = []
    for i in range(int(page)):
        # 爬取免费的IP
        url = 'https://www.kuaidaili.com/free/inha/{}/'.format(i+1)
        # print("爬取网址为：", url)
        #获取代理IP地址
        web_data = requests.get(url, headers=headers)
        if web_data.status_code == 200:
            tree0 = etree.HTML(web_data.text)
            ip_lists = tree0.xpath('//table/tbody/tr/td[@data-title="IP"]/text()');
            port_lists = tree0.xpath('//table/tbody/tr/td[@data-title="PORT"]/text()')
            type_lists = tree0.xpath('//table/tbody/tr/td[@data-title="类型"]/text()')
            # print(ip_lists)
            # print(port_lists)
            for x,y in zip(ip_lists, port_lists):
                ip_list.append(x + ":" + y)
            time.sleep(3)  # 防止访问频率过快，被封
    # print(len(ip_list))
    return ip_list

#  组建随机IP地址
def get_random_ip(ip_list):
#获取代理IP地址
    proxy_list = []
    for ip in ip_list:
        proxy_list.append('http://' + ip)
    proxy_ip = random.choice(proxy_list)
    proxies = {
    
    'http': proxy_ip}
    return proxies

if __name__ == '__main__':
    headers = {
    
    
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
    }
    #获取代理IP地址
    ip_list = get_ip_list(headers=headers, page=3)
    print(ip_list)

Inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/qq_36171287/article/details/113095615

Registro de código de grupo de proxy de IP del rastreador

IP del proxy del rastreador de Python

[Notas del rastreador] El rastreador de Python simplemente utiliza la IP del proxy de rastreo

Principio del rastreador web Python y uso de IP proxy

(Rastreador asincrónico) aiomysql elimina la IP no válida en el grupo de proxy

Rastreador de Python: uso correcto de IP proxy

Aumente rápidamente el volumen de lectura de blogs a través de la IP del proxy del rastreador Python

Pandas rastreo y análisis de IP proxy con un solo clic y mantenimiento del grupo de IP proxy

middleware de grupo de ip de proxy escaso

Reconocimiento del código de verificación del rastreador

¿Por qué el rastreador necesita una IP de proxy HTTP?

[Tutorial del rastreador de Python] ¿Cuál es la diferencia entre la IP de proxy pagada y la IP de proxy libre?

[rastreador de Python] ¿Cuál es la IP del agente del rastreador que requiere el rastreador?

Ejemplo de código del grupo de conexiones hikari

Código común del rastreador de Python

Selección del rastreador de Python 09 episodios (proxy de IP, parámetros de las solicitudes.post, crack del diccionario de Youdao)

Cómo el rastreador de Python utiliza la IP proxy para rastrear

Rastreador de Python: tecnología de ocultación de IP y rastreo de proxy

Reconocimiento del código de verificación de la nube del rastreador de Python

Implementación del código de archivo PDF de descarga del rastreador por lotes de Python

[Prática do rastreador Python] O rastreador pode bloquear seu IP? Arranjo de pool de proxy IP

[100 días de dominio de Python] Día 43: desarrollo del rastreador web Python _ conceptos básicos del rastreador (biblioteca urlib, biblioteca Beautiful Soup, uso de proxy + código de combate real)

Inicio de sesión del código de verificación deslizante en el rastreador de python

Selección del rastreador de Python 08 episodios (Fiddler de artefacto de proxy HTTP)

Análisis del código fuente del grupo de conexiones de la base de datos Mybatis

Principio de implementación del grupo de subprocesos de Java y análisis del código fuente

Rastreador de Python, IP de proxy rápido oculto alto gratuito

¿Cómo elegir la IP del rastreador de túneles que más le convenga?

proyecto del rastreador de Python

Ruta de inicio del rastreador

Recomendado

Clasificación

Diario

Más

2024-05-13(7)

2024-05-12(22)

2024-05-11(31)

2024-05-10(32)

2024-05-09(31)

2024-05-08(18)

2024-05-07(35)

2024-05-06(4)

2024-05-05(0)

2024-05-04(17)