Cuando Python escribe código de rastreador, además de solicitudes y beautifulsoup4, también se pueden usar otras bibliotecas, las siguientes son algunas bibliotecas de uso común:
-
Scrapy: Scrapy es un marco de rastreo de Python que proporciona potentes herramientas de rastreo y funciones convenientes de procesamiento de datos, y puede escribir rápidamente programas de rastreo eficientes.
-
Selenium: Selenium es una herramienta de prueba automatizada que puede simular el comportamiento del navegador. Para algunos sitios web que necesitan simular inicios de sesión, clics y otras operaciones interactivas, Selenium es una herramienta muy útil.
-
PyQuery: PyQuery es una biblioteca similar a jQuery, que se puede utilizar para manipular documentos HTML de forma similar a los selectores CSS, lo cual es muy conveniente.
-
lxml: lxml es una biblioteca de procesamiento XML de Python que puede analizar rápidamente documentos XML y también puede usarse para analizar documentos HTML.
-
request-html: request-html es una biblioteca basada en solicitudes y lxml, que puede analizar fácilmente documentos HTML y admite representación de JavaScript y selectores de CSS.
-
pandas: pandas es una biblioteca de procesamiento de datos de Python que puede limpiar, organizar y analizar datos fácilmente y es muy útil para el procesamiento de datos en programas de rastreo.
metodo de instalacion:
Ingrese el nombre de la biblioteca de instalación de pip en la terminal , como por ejemplo:
pip install scrapy
Aquí hay un ejemplo de código que importa la biblioteca anterior:
import scrapy
from selenium import webdriver
from pyquery import PyQuery as pq
from lxml import etree
from requests_html import HTMLSession
import pandas as pd