El proceso de ejecución de scrapy

 

 

motor chatarra

El motor es responsable de controlar el flujo de datos a través de todos los componentes del sistema y desencadenar eventos cuando se producen las acciones correspondientes. Consulte la sección Flujo de datos a continuación para obtener más detalles.

programador

El programador acepta solicitudes del motor y las pone en cola para que se sirvan al motor más tarde cuando el motor las solicite.

Descargador

El descargador es responsable de obtener los datos de la página y proporcionarlos al motor y luego a la araña.

Arañas

Spider es una clase escrita por usuarios de Scrapy para analizar la respuesta y extraer el elemento (es decir, el elemento obtenido) o la URL para un seguimiento adicional. Cada araña es responsable de manejar un sitio web específico (o algunos). Consulte Arañas para obtener más información   .

Canalización de artículos

Item Pipeline es responsable de procesar los elementos extraídos por la araña. Los procesos típicos son limpieza, validación y persistencia (por ejemplo, acceso a una base de datos). Consulte Canalización de artículos para obtener más información   .

Programas intermedios de descarga

El middleware del descargador es un enlace específico entre el motor y el descargador, que maneja la respuesta que pasa del Descargador al motor. Proporciona un mecanismo sencillo para ampliar la funcionalidad de Scrapy mediante la inserción de código personalizado. Consulte Middleware de descarga para obtener más detalles   .

Middleware de araña (Middleware de araña)

El middleware de Spider es un enlace específico entre el motor y Spider, que maneja la entrada (respuesta) y la salida (elementos y solicitudes) de Spider. Proporciona un mecanismo sencillo para ampliar la funcionalidad de Scrapy mediante la inserción de código personalizado. Para obtener más información, consulte  Spider Middleware (Middleware)  .

 

  • El proceso de ejecución de Scrapy es más o menos el siguiente:
  1. El motor (scrapy) toma un enlace (URL) del programador (programador) para el próximo rastreo
  2. El motor encapsula la URL en una solicitud (Solicitud) y la pasa al descargador (descargador)
  3. El descargador (downloader) descarga el recurso y lo encapsula en un paquete de respuesta (Respuesta)
  4. El rastreador (araña) analiza la respuesta
  5. Analice la entidad (elemento), luego transfiérala a la canalización de la entidad (elemento-canalizaciones) para su posterior procesamiento
  6. Lo que se analiza es un enlace (URL), luego la URL se entrega al programador (programador) para esperar el rastreo

Supongo que te gusta

Origin blog.csdn.net/weixin_42958164/article/details/82154364
Recomendado
Clasificación