[Trucos extraños de Python] Use la función read_html de pandas para implementar el rastreador web con solo una línea de código

contenido

1. Introduce la función read_html()

2. Analice y rastree la página de destino

Tres, explicación del código

4. Explicación en video sincronizada


1. Introduce la función read_html()

Amigos a los que les gusta la programación en Python, ¿sabían que además del análisis de datos, la biblioteca pandas de Python también se puede usar como un rastreador simple? ¡Con solo una línea de código central, puede implementar un programa rastreador y rastrear fácilmente los datos de la página web!

Es la función read_html() de la biblioteca pandas , que es muy conveniente para implementar el rastreador de python.

Cabe señalar aquí que solo puede rastrear datos de tablas con etiquetas <table></table> en la página web.

2. Analice y rastree la página de destino

Aquí, la URL de destino que rastreé es: Shanghai Weather Forecast_a website

Como puede ver, hay una tabla de datos en la página. Presione F12 para abrir el modo de desarrollador y ver el código fuente de la página web:

De hecho, son datos de tabla con etiquetas <table> . Eso es fácil, ¡comencemos a codificar!

Tres, explicación del código

Hay 3 líneas de código en total, y el código central es solo 1 línea:

import pandas as pd   # 导入库
url = 'http://weather.sina.com.cn/china/shanghaishi/'  # 目标网址(含有<table>的表格)
df = pd.read_html(url)[1]  # 开始爬取目标网站

En estas 3 líneas cortas de código, los datos se rastrean. Eche un vistazo a los datos que bajaron:

¡No hay problema, son exactamente los mismos que los datos de la página original! Más tarde, está bien guardar los datos con pd.to_excel().

¡Súper simple y poderoso!

Aquí hay una descripción de los parámetros del sitio web oficial de la función read_html() para su referencia: (Lo he traducido al chino ^_^)

Una vez más, solo puede rastrear datos de tablas con etiquetas <table></table> en la página web.

Si no hay una etiqueta <table> en la página, si se usa este método para rastrear, aparecerá un error de " No se encontraron tablas ":

¡Esta es la imagen que tomé con la interfaz de ipython, y otros IDE reportarán el mismo error!

4. Explicación en video sincronizada

El código explica el video línea por línea:

[Artefacto del rastreador] Explicación de 2 minutos para rastrear fácilmente datos web con una línea de código python

De acuerdo con los hábitos anteriores, compartiré los archivos del código fuente de Python. Esta vez, no necesito compartirlo, solo 3 líneas de código, ¡y hagámoslo yo mismo, amigo!

Artículos de cuentas públicas sincronizadas:

[Trucos del rastreador de Python] ¡Use la función read_html de la biblioteca pandas para obtener el rastreador en una línea de código!


Soy Ma Ge y tengo decenas de miles de fans en toda la red. Bienvenidos a intercambiar tecnología Python juntos.

Busque " Ma Ge python dijo " en varias plataformas: Zhihu, Bilibili, Xiaohongshu, Sina Weibo.

Supongo que te gusta

Origin blog.csdn.net/solo_msk/article/details/124225502
Recomendado
Clasificación