【python爬虫】黑科技之pandas获取网页表格数据 - 代码天地

【python爬虫】黑科技之pandas获取网页表格数据

其他 2020-04-23 12:34:11 阅读次数: 0

以网页表格为例：https://www.kuaidaili.com/free/

该网站数据存在table标签，直接用requests，需要结合bs4解析正则/xpath/lxml等，没有几行代码是搞不定的。

今天介绍的黑科技是pandas自带爬虫功能，pd.read_html()，只需传人url，一行代码搞定。

原网页结构如下：

python代码如下：

import pandas as pd
url='http://www.kuaidaili.com/free/'
df=pd.read_html(url)[0]  
# [0]：表示第一个table，多个table需要指定，如果不指定默认第一个
# 如果没有【0】，输入dataframe格式组成的list
df

输出dataframe格式数据

再次保存到本地，csv格式，注意中文编码：utf_8_sig

print(type(df))
df.to_csv('free ip.csv',mode='a', encoding='utf_8_sig', header=1, index=0)
print('done!')

查看csv文件

先来了解一下read_html函数的api:

pandas.read_html(io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, tupleize_cols=None, thousands=', ', encoding=None, decimal='.', converters=None, na_values=None, keep_default_na=True, displayed_only=True)

常用的参数：
io:可以是url、html文本、本地文件等；
flavor：解析器；
header：标题行；
skiprows：跳过的行；
attrs：属性，比如 attrs = {'id': 'table'}；
parse_dates：解析日期

注意：返回的结果是**DataFrame**组成的**list**。
若要dataframe，直接取list【0】

更多参考：

https://pandas.pydata.org/pandas-docs/version/0.19.2/generated/pandas.read_html.html

https://www.cnblogs.com/litufu/articles/8721207.html

https://www.cnblogs.com/sanduzxcvbnm/p/10250222.html

到此为止，全部介绍完毕，你学会了吗？

猜你喜欢

转载自www.cnblogs.com/hightech/p/12759895.html

【python爬虫】黑科技之pandas获取网页表格数据

python 爬虫黑科技

Java爬虫获取网页表格数据

Beautiful Soup 爬虫 + Pandas Dataframe，解析网页的 Table 表格数据

【python】pandas 获取表格类数据

Python爬虫黑科技(经验)

Pandas抓取网页表格数据

C#爬虫获取网页中表格数据

使用Python和Pandas处理网页表格数据

爬虫入门之爬取静态网页表格数据

简单又强大的pandas爬虫利用pandas库的read_html()方法爬取网页表格型数据

利用python模块pandas获取网页表格，并保存为excel

初学爬虫之通过urllib库获取网页数据

Python爬虫 - 获取网页编码

Python爬虫遇上FineBI画图！这就是黑科技的力量！

黑科技! 当会Python爬虫遇上会画图的FineBI……

python爬取网页的方法总结,python爬虫获取网页数据

【EXCEL】通过url获取网页表格数据

python爬虫之爬取案例网页ajax请求的数据

Python爬虫之解析网页

洛谷的爬虫（黑科技）

【Python 实战基础】Pandas如何获取表格的信息和基本数据统计

python pandas 获取Excel文件下所有的sheet名称，表格数据

Python3网络爬虫(十一)：爬虫黑科技之让你的爬虫程序更像人类用户的行为(代理IP池等)

pandas.read_html()读取网页表格类数据

pandas爬取网页中含有表格的数据

Python高级--Pandas读写数据与表格

爬虫基础：python获取网页内容

python爬虫基础--获取并解析网页

python 爬虫 selenuim获取动态网页

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)