Marco fragmentado para mejorar la configuración de la eficiencia de rastreo

Marco fragmentado para mejorar la configuración de la eficiencia de rastreo

- realizar la configuración en el archivo de configuración también puede establecer el valor predeterminado :( Setting)
 # 1 aumento concurrente: 
scrapy predeterminado convertido a 32 hilos concurrentes, puede incrementarse adecuadamente. En el archivo de configuración de ajustes, modifique CONCURRENT_REQUESTS = 100 a 100 y establezca la concurrencia a 100.
# 2 Aumente el nivel de registro: 
cuando ejecute scrapy, habrá una gran cantidad de información de registro, para reducir el uso de la CPU. Puede establecer la información de salida del registro en INFO o ERROR. Escriba en el archivo de configuración: LOG_LEVEL = 'INFO'
 # 3 Deshabilite las cookies: 
si las cookies no son realmente necesarias, las cookies se pueden deshabilitar al raspar datos para reducir el uso de la CPU y mejorar la eficiencia del rastreo. Escriba en el archivo de configuración: COOKIES_ENABLED = False
 # 4 prohibir reintentar: 
volver a solicitar (reintentar) por HTTP fallido disminuirá la velocidad de rastreo, por lo que puede prohibir el reintento. Escriba en el archivo de configuración: RETRY_ENABLED = False
 # 5 Reduzca el tiempo de espera de descarga: 
si rastrea un enlace muy lento, reducir el tiempo de espera de descarga puede permitir que el enlace atascado se descarte rápidamente, mejorando así la eficiencia. Escriba en el archivo de configuración: DOWNLOAD_TIMEOUT = 10 El tiempo de espera es de 10 s

 

Supongo que te gusta

Origin www.cnblogs.com/baohanblog/p/12686182.html
Recomendado
Clasificación