Olá a todos, vamos discutir como rastrear os dados do site oficial do Hupu NBA e gravar os dados no Excel ao mesmo tempo para gerar automaticamente um gráfico de linha. As principais etapas são as seguintes:
Este artigo será dividido nas duas partes a seguir para explicar separadamente:
Rastreie na página do jogador do site oficial do Hupu NBA para obter os dados do jogador.
Limpe e classifique os dados rastreados do jogador e visualize-os.
Os principais módulos Python envolvidos no projeto:
solicita pandas bs4
Parte do rastreador
A ideia de separar rastreadores é a seguinte
Observe o código-fonte da URL1, encontre o nome do time e a URL2 correspondente, observe o código-fonte da URL2, encontre a URL3 correspondente ao jogador, observe o código-fonte da URL3, encontre as informações básicas do jogador correspondente e os dados do jogo, e filtre e loja
Na verdade, o crawler opera em html, e a estrutura do html é muito simples, só existe uma, ou seja, uma caixa grande e uma caixa pequena, e a caixa pequena está aninhada em uma pequena caixa.
O URL de destino é o seguinte:
URL1 :http://nba.hupu.com/players/
URL2 (veja a equipe Lakers como exemplo aqui): https: //nba.hupu.com/players / ...
URL3 (tome James como exemplo aqui): https: //nba.hupu.com/players / ...
Módulo de referência primeiro
from bs4 import BeautifulSoupimport requestsimport xlsxwriterimport os
Verifique o código-fonte do URL1, você pode ver o substantivo da equipe e seu URL2 correspondente na tag span <span class>
Recentemente, muitos amigos consultaram sobre problemas de aprendizagem do Python por meio de mensagens privadas. Para facilitar a comunicação, clique no azul para participar da discussão e responder você mesmo à base de recursos