Python escribe código de rastreador, ¿qué bibliotecas se necesitan además de las solicitudes y beautifulsoup4? 【Registro de aprendizaje】

Cuando Python escribe código de rastreador, además de solicitudes y beautifulsoup4, también se pueden usar otras bibliotecas, las siguientes son algunas bibliotecas de uso común:

  1. Scrapy: Scrapy es un marco de rastreo de Python que proporciona potentes herramientas de rastreo y funciones convenientes de procesamiento de datos, y puede escribir rápidamente programas de rastreo eficientes.

  2. Selenium: Selenium es una herramienta de prueba automatizada que puede simular el comportamiento del navegador. Para algunos sitios web que necesitan simular inicios de sesión, clics y otras operaciones interactivas, Selenium es una herramienta muy útil.

  3. PyQuery: PyQuery es una biblioteca similar a jQuery, que se puede utilizar para manipular documentos HTML de forma similar a los selectores CSS, lo cual es muy conveniente.

  4. lxml: lxml es una biblioteca de procesamiento XML de Python que puede analizar rápidamente documentos XML y también puede usarse para analizar documentos HTML.

  5. request-html: request-html es una biblioteca basada en solicitudes y lxml, que puede analizar fácilmente documentos HTML y admite representación de JavaScript y selectores de CSS.

  6. pandas: pandas es una biblioteca de procesamiento de datos de Python que puede limpiar, organizar y analizar datos fácilmente y es muy útil para el procesamiento de datos en programas de rastreo.

metodo de instalacion:

Ingrese el nombre de la biblioteca de instalación de pip en la terminal  , como por ejemplo:

pip install scrapy

Aquí hay un ejemplo de código que importa la biblioteca anterior:

import scrapy
from selenium import webdriver
from pyquery import PyQuery as pq
from lxml import etree
from requests_html import HTMLSession
import pandas as pd

Supongo que te gusta

Origin blog.csdn.net/whoas123/article/details/130022860
Recomendado
Clasificación