静态网页获取的简单方法Xpath - 代码天地

静态网页获取的简单方法Xpath

其他 2019-09-24 10:11:09 阅读次数: 0

本文抽取证券之星基金的一个小表格为例（xpath的使用自己看菜鸟驿站）
import requests
from lxml import etree
import csv

def gethtml(url,headers):　　　　　　　　　　　　#获取网页text
    try:
        req = requests.get(url)
        req.raise_for_status()
        req.encoding = 'gb18030'
        html = req.text
        return html
    except:
        print('Error')

def getcontent(html):　　　　　　　　　　　　　　　　#获取所要的表格下的所有内容，但不包括标题
    html = etree.HTML(html)

    name = html.xpath('//*[@id="datalist"]/tr//text()')
    # tobady = name[0]
    td = []
    for i in range(len(name)):
        td.append(name[i])
    td1 = [td[i:i+8] for i in range(0,len(td),8)]     #此处按8个一行切分，便于后面csv储存
    return td1


def save_data(fname,td1):　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　#保存成csv文件
    f = open(fname, 'w', encoding='gb18030', newline="")
    writer = csv.writer(f)
    writer.writerow(('基金代码', '基金名称', '单位净值', '累计净值', '日增长额', '日增长率', '申购', '赎回'))
    for i in td1:
        writer.writerow(i)


def main():
    url = 'http://quote.stockstar.com/fund/mixed.shtml'
    fname = 'E:/shuju/t.csv'
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
    save_data(fname,getcontent(gethtml(url,headers=headers)))

if __name__ == '__main__':
    main()

猜你喜欢

转载自www.cnblogs.com/zsf-note/p/11576604.html

静态网页获取的简单方法Xpath

简单静态网页爬虫-xpath

随意编辑网页内容的简单方法

【获取IP地址的简单方法】

php获取请求参数的简单方法

获取cookie的简单方法（电脑端）

xpath解析网页，xpath获取网页的内容

PHP实现页面静态化的简单方法分享

Javascript获取某个月的天数-简单方法

【C\C++】获取程序工作路径的简单方法

js获取url中参数的简单方法

MVC 前台获取后台数据的简单方法

vue里面获取域名的简单方法location.origin

C语言获取文件大小的简单方法

BaseActivity的简单方法

Java 简单方法

es的简单方法

几种简单获取浏览器静态网页html的方式

简单方法实现"假的"网页计数器，数字定时定值自动增长

超简单方法-彻底解决网页被劫持-自由锁定主页

网页数据实时更新的三种简单方法

破解网页禁止复制粘贴的四种简单方法

Ubuntu 17.04和18.04版本设置静态IP的简单方法

激活idea 简单方法

Map集合的简单方法

数组的反转的简单方法

HaspMap使用简单方法

string 逆序简单方法

jQuery效果的简单方法

css 居中的简单方法

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)