史上最简单的爬虫:使用python快速获取web网页中的table数据。

其他 2020-06-19 10:04:39 阅读次数: 0

今天给大家介绍一个史上最简单的爬虫程序,如何利用python中的pandas库来快速读取web网页中的table数据，我以搜狐NBA数据中心的一个网页(http://data.sports.sohu.com/nba/nba_teams_rank.php?type=division#division)为例，该网页包含了6个table，我们要做的是快速获取这6个table中数据,并对其格式进行调整,使其更加美观实用：

1. 读取数据

我们使用pandas的read_html方法可以快速获取网页中所有table的数据。

import pandas as pd
url="http://data.sports.sohu.com/nba/nba_teams_rank.php?type=division#division"
tables = pd.read_html(url)
print("table数量:",len(tables))
tables

2. 调整数据格式

我们的tables中包含了6个table的数据,下面我们查看一下第一个table中数据

df1 = tables[0]
df1

很显然第一个table中的表头不是我们所需要的，看上去第0行应该是表头,所以接下来我们要做的是将第0行变成我们的表头,并删除原来的第0行：

df1.columns = list(df1.iloc[0])
df1 = df1.drop([0], axis=0)
df1

3. 删除不需要的行或列,并重建索引

上面的数据经过调整以后已经比较完美了，但是如果是你自己的数据，你可能还需要进一步完善,比如删除某些行或列,最后再重建索引，下面我们来实现以下删除若干行和列，再重建索引的方法：

#删除第3,4行
df1 = df1.drop([3,4], axis=0)
#删除客场,主场这两列
df1 = df1.drop(['客场', '主场'], axis=1)
#重建索引
df1.reset_index(drop=True)

4.总结

经过上述简单折腾以后,我们可以快速实现一个最简单爬虫的功能,通过这个简单的方法我们可以自己扩展出更加复杂的功能,比如可以通过修改网页链接中的参数的方法来获取需要翻页的数据等等。

猜你喜欢

转载自blog.csdn.net/weixin_42608414/article/details/105369944

史上最简单的爬虫:使用python快速获取web网页中的table数据。

史上最简单的python爬虫程序

写出最简单的网页爬虫

Python中的多线程（史上最简单易懂版）

Spring Boot 快速入门史上最简单

python爬虫之类的简单使用-----获取单页网页的小说内容保存本地

python 最简单的爬虫

使用Python爬虫爬取简单网页（Python爬虫入门）

Python 简单网页爬虫

Python爬虫入门到实战-史上最详细的爬虫教程

史上最简单maven配置与使用

史上最简单的Redisson使用教程

调试经验——Excel使用Pivot Table快速获取数据集

Python爬虫 - 获取网页编码

【python爬虫】黑科技之pandas获取网页表格数据

Python最简单的爬虫系列！

python爬虫简单网页图片

Python中利用BeautifulSoup库进行简单的网页爬虫

python爬虫.1.简单的网页爬虫

python爬取网页的方法总结,python爬虫获取网页数据

使用 Python 实现最简单的 HTTP Server，不要web框架

Python：使用爬虫抓取网页中的视频并下载（完整源码）

快速学习网页爬虫之python

如何使用 Python 爬虫抓取动态网页数据

使用HtmlAgilityPack快速实现网页爬虫

Python网络爬虫实现HTTP请求、解析网页和数据存储（简单静态网页爬取）

selenium + python 获取table数据

获取table中每行的数据

python 爬虫几种简单获取浏览器静态网页html的方式

python3 爬虫第一步简单获取网页基本信息

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)