Segundo, despliegue al proyecto srcapy
1. Instalar scarpy-crawlera
pip install, easy_install, sea cual sea el método de instalación que elija
pip install scrapy-crawlera
2. Modificar settings.py
Si ha configurado la IP del proxy antes, coméntelo y únase al proxy del rastreador
DOWNLOADER_MIDDLEWARES = {
# 'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110,
# 'partent.middlewares.ProxyMiddleware': 100,
'scrapy_crawlera.CrawleraMiddleware': 600
}
Para que Crawlera surta efecto, debe agregar la información de API que creó (si completa la clave de API, complete la cadena en blanco)
CRAWLERA_ENABLED = True
CRAWLERA_USER = '<API key>'
CRAWLERA_PASS = ''
Para lograr una mayor eficiencia de rastreo, puede deshabilitar la extensión Autothrottle y aumentar el número máximo de solicitudes concurrentes, y establecer el tiempo de espera de descarga, el código es el siguiente
CONCURRENT_REQUESTS = 32
CONCURRENT_REQUESTS_PER_DOMAIN = 32
AUTOTHROTTLE_ENABLED = False
DOWNLOAD_TIMEOUT = 600
Si DOWNLOAD_DELAY está configurado en el código, debe agregarse en setting.py
CRAWLERA_PRESERVE_DELAY = T