El marco del rastreador web de Python: un primer vistazo a los rastreadores web


I. Introducción

  • Página personal : ζ Xiaocaiji
  • Hola a todos, soy Xiaocaiji, aprendamos el marco de trabajo de rastreo de red de Python
  • Si el artículo es útil para usted, bienvenido a seguir, dar me gusta y marcar (un clic en tres enlaces)

2. Introducción

   Con el advenimiento de la era de los grandes datos, la cantidad de información de la red se ha vuelto cada vez mayor, y el estado de los rastreadores web en Internet será cada vez más importante. Este artículo presentará técnicas comunes para implementar rastreadores web a través del lenguaje Python, así como marcos de trabajo comunes para rastreadores web.


3. Descripción general de los rastreadores web

   Los rastreadores web (también conocidos como arañas web, robots web y, a menudo, llamados cazadores de páginas web en una determinada comunidad) pueden explorar o capturar información automáticamente en la red de acuerdo con reglas específicas (algoritmos de rastreadores web) y pueden escribir fácilmente programas o scripts de rastreadores a través de Python.

   Los rastreadores web a menudo aparecen en la vida, y los motores de búsqueda no pueden prescindir de los rastreadores web. Por ejemplo, el nombre del rastreador del motor de búsqueda Baidu es Baidu Spider. Baidu Spider es un programa automático del motor de búsqueda de Baidu. Rastrea cantidades masivas de información de Internet todos los días, recopila y organiza páginas web, imágenes, videos y otra información en Internet. Luego, cuando el usuario ingresa las palabras clave correspondientes en el motor de búsqueda de Baidu, Baidu encontrará contenido relevante de la información de red recopilada y luego presentará la información al usuario en un orden determinado. Durante el proceso de trabajo de Baidu Spider, el motor de búsqueda construirá un programa de llamada para llamar el trabajo de Baidu Spider. Estos programas de programación necesitan usar ciertos algoritmos para realizar. Usando diferentes algoritmos, la eficiencia de trabajo de los rastreadores será diferente y los resultados del rastreo serán diferentes. Por lo tanto, al aprender rastreadores, no solo necesita comprender el proceso de implementación de los rastreadores, sino que también debe comprender algunos algoritmos de rastreadores comunes. En ciertos casos, los desarrolladores deben formular ellos mismos los algoritmos correspondientes.


4. Clasificación de los rastreadores web

   Los rastreadores web se pueden dividir en los siguientes tipos según la tecnología y la estructura implementada: rastreador web común , rastreador web enfocado , rastreador web incremental , rastreador web profundo y otros tipos. En los rastreadores web reales, suele ser una combinación de estos tipos de rastreadores:

1. Rastreador web general

   Los rastreadores web de propósito general también se denominan rastreadores web completos. Los rastreadores web de uso común tienen una gran variedad y cantidad de rastreo. Precisamente debido a que los datos que rastrean son masivos, tienen altos requisitos de velocidad y espacio de almacenamiento. Los rastreadores web de propósito general tienen requisitos relativamente bajos en el orden de las páginas de rastreo. Al mismo tiempo, debido a que hay demasiadas páginas para actualizar, generalmente funcionan en paralelo, por lo que lleva mucho tiempo actualizar una página. Por lo tanto, hay ciertos defectos.Este tipo de rastreador web se usa principalmente en motores de búsqueda a gran escala y tiene un gran valor de aplicación. Por lo general, el rastreador web se compone principalmente de una recopilación de URL inicial, una cola de URL, un módulo de rastreo de página, un módulo de análisis de página, un módulo de datos de página, un módulo de filtrado de página, etc.

2. Reúna rastreadores web

  El rastreador web de agregación también se denomina rastreador web de tema, que se refiere a un rastreador que rastrea de forma selectiva páginas web relevantes de acuerdo con un tema predefinido. En comparación con los rastreadores web generales, no localiza los recursos de destino en todo Internet, sino que localiza las páginas web de destino rastreadas en páginas relacionadas con el tema. Esto ahorra mucho hardware y recursos de red, y la cantidad de páginas guardadas es más rápida debido a la pequeña cantidad.Los rastreadores web enfocados se utilizan principalmente para rastrear información específica y proporcionar servicios para un grupo específico de personas.

3. Rastreador web incremental

  Los rastreadores web incrementales, los llamados incrementales, corresponden a actualizaciones incrementales. Actualización incremental significa que solo se actualiza el lugar cambiado al actualizar. Las partes sin cambios no se actualizarán, por lo que los rastreadores web incrementales, al rastrear páginas web, solo rastrearán las páginas recién generadas cuando sea necesario y no rastrearán las páginas que no hayan cambiado. Esto puede reducir efectivamente la cantidad de descargas y reducir el consumo de tiempo y espacio, pero agrega cierta dificultad al algoritmo de rastreo.

4. Rastreador web profundo

  En Internet, las páginas web se pueden dividir en páginas web superficiales y páginas web profundas según su forma de existencia. Las páginas web superficiales se refieren a páginas estáticas a las que se puede acceder directamente mediante hipervínculos estáticos sin enviar un formulario. Las páginas web profundas se refieren a aquellas en las que la mayor parte del contenido no se puede obtener a través de enlaces de páginas estáticas, ocultos detrás de formularios de búsqueda y requieren que los usuarios envíen algunas palabras clave para obtener páginas web. La cantidad de información a la que se debe acceder en la página profunda es cientos de veces mayor que la de la página superficial, por lo que la página profunda es el objeto principal que se rastrea.
  El rastreador web profundo se compone principalmente de seis módulos funcionales básicos (controlador de rastreador, analizador, analizador de formularios, procesador de formularios, analizador de respuestas, controlador LVS) y dos estructuras de datos internas del rastreador (lista de URL, tabla LVS). Entre ellos, LVS representa un conjunto de etiquetas/valores, que se utiliza para representar la fuente de datos para completar el formulario.


Cinco, los principios básicos de los rastreadores web

inserte la descripción de la imagen aquí

  • ① Especifique una URL semilla y póngala en la cola
  • ② Obtener una URL de la cola
  • ③ Use el protocolo HTTP para iniciar una solicitud de red
  • ④ En el proceso de iniciar una solicitud de red, es necesario convertir el nombre de dominio en una dirección IP, es decir, resolución de nombre de dominio
  • ⑤ Obtenga la respuesta del servidor, que es un flujo de entrada binario en este momento
  • ⑥ Convierta el flujo de entrada binario en un documento HTML y analice el contenido (el contenido que queremos capturar, como el título)
  • ⑦ Guarde el contenido publicado en la base de datos
  • ⑧ Registre la URL actual y márquela como rastreada para evitar rastreos repetidos la próxima vez
  • ⑨ Desde el documento HTML actual, analice otras URL contenidas en la página para el próximo rastreo
  • ⑩ Determinar si la URL analizada se ha rastreado y descartarla si se ha rastreado
  • ⑪ Almacene las URL que no se han rastreado en la cola de URL que esperan ser rastreadas
  • ⑫ Repita los pasos anteriores para asegurarse de que no haya datos en la cola de URL esperando a ser rastreados

  Marco de rastreo web de Python: introducción a los rastreadores web por primera vez, este es el final, gracias por leer, si el artículo es útil para usted, bienvenido a seguir, dar me gusta y marcar (un clic en tres enlaces)


Supongo que te gusta

Origin blog.csdn.net/weixin_45191386/article/details/131445359
Recomendado
Clasificación