Cómo usar el rastreador de agente de rastreo scrapy

Segundo, despliegue al proyecto srcapy

    1. Instalar scarpy-crawlera

    pip install, easy_install, sea cual sea el método de instalación que elija

pip install scrapy-crawlera

    2. Modificar settings.py

        Si ha configurado la IP del proxy antes, coméntelo y únase al proxy del rastreador

DOWNLOADER_MIDDLEWARES = {
    # 'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110,
    # 'partent.middlewares.ProxyMiddleware': 100,
'scrapy_crawlera.CrawleraMiddleware': 600
}

    Para que Crawlera surta efecto, debe agregar la información de API que creó (si completa la clave de API, complete la cadena en blanco)

CRAWLERA_ENABLED = True
CRAWLERA_USER = '<API key>'
CRAWLERA_PASS = ''

    Para lograr una mayor eficiencia de rastreo, puede deshabilitar la extensión Autothrottle y aumentar el número máximo de solicitudes concurrentes, y establecer el tiempo de espera de descarga, el código es el siguiente

CONCURRENT_REQUESTS = 32
CONCURRENT_REQUESTS_PER_DOMAIN = 32
AUTOTHROTTLE_ENABLED = False
DOWNLOAD_TIMEOUT = 600

    Si DOWNLOAD_DELAY está configurado en el código, debe agregarse en setting.py

CRAWLERA_PRESERVE_DELAY = T

Supongo que te gusta

Origin blog.csdn.net/chaishen10000/article/details/103253939
Recomendado
Clasificación