利用pandas 中的read_html 获取页面表格 - 代码天地

利用pandas 中的read_html 获取页面表格

其他 2019-07-24 14:01:35 阅读次数: 0

#利用pandas 中的read_html   获取页面表格
import pandas as pd
import requests
# 爬取网址
headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
            'Connection': "close",
        }
url ='http://guj.315i.com/assess/detial?industry=001&classId=001002'
page = requests.get(url=url, headers=headers).text
# 找到所需爬取的表格  [0]代表取第一个表格
tb = pd.read_html(page)[0]
#保存为csv或txt 等文件
tb.to_csv('aaa.txt', mode='w', encoding='utf-8', header=0, index=0)

with open ('aaa.txt','r',encoding='utf-8') as f:
    lis_new=f.readlines()   #返会的是列表   
print(lis_new)

猜你喜欢

转载自www.cnblogs.com/xdlzs/p/11237441.html

利用pandas 中的read_html 获取页面表格

利用pandas库中的read_html方法抓取网页中常见的表格型数据

利用pandas库中的read_html方法快速抓取网页中常见的表格型数据

简单又强大的pandas爬虫利用pandas库的read_html()方法爬取网页表格型数据

使用Pandas的read_html方法读取网页Table表格数据

pandas读取html页面中的表格数据

【Python笔记】read_html():获取网页表格数据 & 读取JSON数据 & XML和HTML:Web信息收集 & 使用HTML和Web API

十行代码用pandas的read_html爬取中彩网双色球历年全部数据

【Python奇淫技巧】用pandas的read_html函数仅一行代码实现网页爬虫

【Pandas】利用Pandas读取表格中的一列并转化为列表的形式进行存储

pandas.read_html()读取网页表格类数据

利用 pandas库读取excel表格数据

在模态框中获取jsp页面表格中的数据

利用webBrowser获取页面iframe中的内容

利用python模块pandas获取网页表格，并保存为excel

表格操作系列——利用字段名获取表格中对应列的数据

利用pandas对数据表格进行简单操作

Android中利用jsoup解析html页面

html 表格获取单行

解决百度富文本框中添加的表格页面获取后不显示表格边框的问题

【python】pandas 获取表格类数据

用c:forEach页面中的表格不显示后台获取到的数据

vue+echarts中利用el-button实现页面和表格的切换展示

前端实现利用层级下拉框从页面表格中删选出数据

pandas中利用 .iloc 和 .loc 选取数据

在Python中利用Pandas库处理大数据的简单介绍

Pandas 利用循环在Excel多个sheet中写数据

获取表格中的值

使用pandas中的表格，GUI页面多次点击后报错：Process finished with exit code -1073740791 (0xC0000409)

HTML页面导出execl表格

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)