programa rastreador web Python y proceso de operación

1 Introducción

Python datos de la página web crawler desarrolladores web adquirieron proceso básico:

Iniciar una solicitud

Iniciado por solicitud de URL a una petición del servidor, la solicitud puede contener información de cabecera adicional.

La adquisición de contenido de la respuesta

la respuesta normal del servidor, recibirá una respuesta, contenido web que se solicita, puede contener HTML, cadena JSON o datos binarios (vídeo, imágenes) y así sucesivamente.

análisis de contenido

Si el código HTML, puede utilizar el analizador de páginas para analizar, y si los datos JSON, puede convertir JSON objeto de análisis, si los datos binarios se pueden guardar en un archivo para su posterior procesamiento.

Guardar los datos

Se pueden guardar en un archivo local, sino que también se puede guardar en la base de datos (MySQL, Redis, MongoDB, etc.).

2 orugas y proceso de operación

marco rastreador web incluye los siguientes cinco módulos:

  • planificador de reptiles
  • URL del administrador
  • HTML descargador
  • HTML analizador
  • memoria de datos

Cinco funciones del módulo de la siguiente manera:

  • Reptil planificador: el principal responsable de la coordinación general de la obra de otros cuatro módulos.
  • URL Manager: Administra el enlace URL, para mantener la URL colección ya gatear y trepar un conjunto de URL no se toma, proporcionando acceso a la nueva interfaz de enlace de URL.
  • HTML descargador: se utiliza para obtener el enlace de URL no es rastreo desde el Administrador de URL y descargar la página HTML.
  • Analizador HTML: se utiliza para llegar desde el descargador de HTML ha descargado la página HTML y enlace de análisis sintácticos URL a la nueva URL Manager, analizar datos válidos a cabo a la memoria de datos.
  • El almacenamiento de datos: HTML analizador para analizar los datos almacenados en forma de un archivo o base de datos.

Los procesos dinámicos que se ejecutan marco rastreador web de la siguiente manera:

3 Resumen

Este documento describe el marco de Python rastreador web desarrollado, el proceso que se ejecuta rastreador web en diferentes módulos de acuerdo a la función específica, con el fin de llevar a cabo sus funciones, la operación coordinada. Después del marco para construir un buen rastreador web, efectivamente puede mejorar la eficiencia de nuestro desarrollo de proyectos rastreador web, para evitar una duplicación del trabajo a inventar la rueda.

Supongo que te gusta

Origin www.cnblogs.com/yangmi511/p/12448067.html
Recomendado
Clasificación