Hola a todos, analicemos cómo rastrear los datos del sitio web oficial de Hupu NBA y escribir los datos en Excel al mismo tiempo para generar automáticamente un gráfico de líneas. Los pasos principales son los siguientes:
Este artículo se dividirá en las siguientes dos partes para explicarlo por separado:
Rastrear en la página del jugador del sitio web oficial de Hupu NBA para obtener datos del jugador.
Limpia y ordena los datos del jugador rastreados y visualízalos.
Los principales módulos de Python involucrados en el proyecto:
solicita pandas bs4
Pieza de oruga
La idea de clasificar los rastreadores es la siguiente
Observe el código fuente de la URL1, busque el nombre del equipo y la URL2 correspondiente, observe el código fuente de la URL2, busque la URL3 correspondiente al jugador, observe el código fuente de la URL3, encuentre la información básica del jugador correspondiente y los datos del juego, y filtre y Tienda
De hecho, el rastreador opera en html, y la estructura de html es muy simple, solo hay uno, es decir, una caja grande y una caja pequeña, y la caja pequeña está anidada en una caja pequeña.
La URL de destino es la siguiente:
URL1: http://nba.hupu.com/players/
URL2 (tome el equipo de los Lakers como ejemplo aquí): https: //nba.hupu.com/players / ...
URL3 (tome a James como ejemplo aquí): https: //nba.hupu.com/players / ...
Módulo de referencia primero
desde bs4 import BeautifulSoupimport requestimport xlsxwriterimport os
Verifique el código fuente de URL1, puede ver el nombre del equipo y su URL2 correspondiente en la etiqueta span <span class>
Recientemente, muchos amigos consultaron sobre problemas de aprendizaje de Python a través de mensajes privados. Para facilitar la comunicación, haga clic en el azul para unirse a la base de recursos de discusión y respuesta usted mismo