[Truques estranhos do Python] Use a função read_html dos pandas para implementar o rastreador da web com apenas uma linha de código

contente

1. Apresente a função read_html()

2. Analise e rastreie a página de destino

Três, explicação do código

4. Explicação do vídeo sincronizado


1. Apresente a função read_html()

Amigos que gostam de programação em Python, você sabe que além da análise de dados, a biblioteca de pandas do python também pode ser usada como um rastreador simples. Com apenas uma linha de código central, você pode implementar um programa rastreador e rastrear facilmente os dados da página da web!

É a função read_html() da biblioteca pandas , que é muito conveniente para implementar o rastreador python.

Deve-se notar aqui que ele só pode rastrear dados da tabela com tags <table></table> na página da web.

2. Analise e rastreie a página de destino

Aqui, o URL de destino que rastreei é: Shanghai Weather Forecast_a website

Como você pode ver, há uma tabela de dados na página. Pressione F12 para abrir o modo de desenvolvedor e visualizar o código-fonte da página da web:

Na verdade, são dados de tabela com tags <table> . Isso é fácil, vamos começar a codificar!

Três, explicação do código

Existem 3 linhas de código no total, e o código principal é apenas 1 linha:

import pandas as pd   # 导入库
url = 'http://weather.sina.com.cn/china/shanghaishi/'  # 目标网址(含有<table>的表格)
df = pd.read_html(url)[1]  # 开始爬取目标网站

Neste curto 3 linhas de código, os dados são rastreados. Veja os dados que caíram:

Não tem problema, é exatamente o mesmo que os dados da página original! Mais tarde, não há problema em salvar os dados com pd.to_excel().

Super simples e poderoso!

Aqui está uma descrição dos parâmetros oficiais do site da função read_html() para sua referência: (Eu traduzi para o chinês ^_^)

Mais uma vez, ele só pode rastrear dados da tabela com tags <table></table> na página da web.

Se não houver tag <table> na página, se este método for usado para rastrear, um erro de " Nenhuma tabela encontrada " será solicitado:

Esta é a foto que tirei com a interface ipython, e outros IDEs reportarão o mesmo erro!

4. Explicação do vídeo sincronizado

O código explica o vídeo linha por linha:

[Artefato do rastreador] Explicação de 2 minutos para rastrear facilmente dados da Web com uma linha de código python

De acordo com os hábitos passados, vou compartilhar os arquivos de código fonte do Python. Desta vez, não preciso compartilhar, apenas 3 linhas de código, e vamos fazer isso sozinho, meu amigo!

Artigos de contas públicas sincronizadas:

[Truques do rastreador do Python] Use a função read_html da biblioteca pandas para obter o rastreador em uma linha de código!


Eu sou Ma Ge e tenho dezenas de milhares de fãs em toda a rede. Bem-vindo a trocar a tecnologia python juntos.

Pesquise " Ma Ge python disse " em várias plataformas: Zhihu, Bilibili, Xiaohongshu, Sina Weibo.

Acho que você gosta

Origin blog.csdn.net/solo_msk/article/details/124225502
Recomendado
Clasificación