contenido
1. Introduce la función read_html()
2. Analice y rastree la página de destino
4. Explicación en video sincronizada
1. Introduce la función read_html()
Amigos a los que les gusta la programación en Python, ¿sabían que además del análisis de datos, la biblioteca pandas de Python también se puede usar como un rastreador simple? ¡Con solo una línea de código central, puede implementar un programa rastreador y rastrear fácilmente los datos de la página web!
Es la función read_html() de la biblioteca pandas , que es muy conveniente para implementar el rastreador de python.
Cabe señalar aquí que solo puede rastrear datos de tablas con etiquetas <table></table> en la página web.
2. Analice y rastree la página de destino
Aquí, la URL de destino que rastreé es: Shanghai Weather Forecast_a website
Como puede ver, hay una tabla de datos en la página. Presione F12 para abrir el modo de desarrollador y ver el código fuente de la página web:
De hecho, son datos de tabla con etiquetas <table> . Eso es fácil, ¡comencemos a codificar!
Tres, explicación del código
Hay 3 líneas de código en total, y el código central es solo 1 línea:
import pandas as pd # 导入库
url = 'http://weather.sina.com.cn/china/shanghaishi/' # 目标网址(含有<table>的表格)
df = pd.read_html(url)[1] # 开始爬取目标网站
En estas 3 líneas cortas de código, los datos se rastrean. Eche un vistazo a los datos que bajaron:
¡No hay problema, son exactamente los mismos que los datos de la página original! Más tarde, está bien guardar los datos con pd.to_excel().
¡Súper simple y poderoso!
Aquí hay una descripción de los parámetros del sitio web oficial de la función read_html() para su referencia: (Lo he traducido al chino ^_^)
Una vez más, solo puede rastrear datos de tablas con etiquetas <table></table> en la página web.
Si no hay una etiqueta <table> en la página, si se usa este método para rastrear, aparecerá un error de " No se encontraron tablas ":
¡Esta es la imagen que tomé con la interfaz de ipython, y otros IDE reportarán el mismo error!
4. Explicación en video sincronizada
El código explica el video línea por línea:
[Artefacto del rastreador] Explicación de 2 minutos para rastrear fácilmente datos web con una línea de código python
De acuerdo con los hábitos anteriores, compartiré los archivos del código fuente de Python. Esta vez, no necesito compartirlo, solo 3 líneas de código, ¡y hagámoslo yo mismo, amigo!
Artículos de cuentas públicas sincronizadas:
Soy Ma Ge y tengo decenas de miles de fans en toda la red. Bienvenidos a intercambiar tecnología Python juntos.
Busque " Ma Ge python dijo " en varias plataformas: Zhihu, Bilibili, Xiaohongshu, Sina Weibo.