python爬36选7并保存为.csv - 代码天地

python爬36选7并保存为.csv

其他 2019-01-14 10:20:53 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_39071593/article/details/84980570

import re
import csv
import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
} #伪装成360浏览器

def gethtml(url):     #最基本requests库使用因为BeautifulSoup要解析的是html.text,所以不要只返回html
    html = requests.get(url,headers = headers)
    html.encoding = html.apparent_encoding
    return html.text  #因为BeautifulSoup要解析的是html.text,所以不要只返回html

def space(string):   #用来分开中奖号码
    result = re.sub(r"(?<=\w)(?=(?:\w\w)+$)", " ", string)   
    return result    #返回等等要打印的结果

def soup(html):    #BeautifulSoup解析
    soup = BeautifulSoup(html,'lxml')
    a = soup.body
    b = a.find_all(attrs={'class':"td-luckyno"})  
    for div in b:
        dict = {'first':'','second':'','third':'','fourth':'','fifth':'','sixth':'','special':''}
        string = space(div.attrs['luckyno'])   #调用spcae()方法，提取div中luckyno属性中的数字
        str = string.split()
        i = 0
        for k,v in dict.items():
            dict[k] = str[i]
            i = i + 1
        print(dict)
        if dict['first']!='':
            writer.writerow(dict)

if __name__=="__main__":
    with open('36选7.csv', 'w', newline='') as csvfile:
        fieldnames = ['first','second','third','fourth','fifth','sixth','special']
        writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
        writer.writeheader()
        #这里要缩进，不然就I/O operation on closed file. 翻译：在关闭的文件I / O操作。
        num = 1
        for i in range(1):   #因为只是实验仅仅供参考，所以不完全爬，150多页就ok了
            soup(gethtml('http://www.gdfc.org.cn/datas/history/367/history_'+str(num)+'.html'))
            num += 1
    print('成功！！！')

猜你喜欢

转载自blog.csdn.net/qq_39071593/article/details/84980570

python爬36选7并保存为.csv

python爬取多个网页表格并保存为csv

python爬取中国天气网天气并保存为csv格式文件

python入门访问网站并将爬回来的数据保存为csv文件

python爬取安居客地图页信息，并保存为csv文件

python读取Json文件保存为csv格式

Python批量将csv保存为txt

Python爬取全国最新房价信息保存为CSV文件,进行简单的数据分析

Python 爬取数电教案并保存为pdf

python爬取数据保存为图片

python爬取数据保存为MySQl格式

python爬取数据保存为txt格式

python爬取数据保存为Json格式

python爬取昵称并保存为vss

将矩阵保存为csv文件

python scrapy爬取腾讯招聘网站保存为csv文件，而且设定其表头顺序(csv默认是无序的)

Python爬虫学习笔记(2) _豆瓣电影TOP250(2)爬取详细数据，保存为CSV文件【urllib、request、bs4、error、CSV】

Vue组件-爬取页面表格中的数据并保存为csv文件

用beautifulsoup，re，xpath爬取文章并保存为csv文件

爬取某网站景区列表并保存为csv文件

python 利用scrapy爬取豆瓣TOP250部电影信息分别保存为csv、json、存入mysql、下载海报图片

python 解决从数据库乱码和保存为csv乱码问题

python之爬虫的入门04------爬虫代理ip、保存为CSV表格

Python实现数据保存为PSV文件（先创建CSV，转换成PSV）

【解决】Python数据保存为csv再读取后部分数据的格式被更改

Python提取JSON数据中的键值对并保存为.csv文件

前程无忧爬虫实战（通过输入关键字爬取任意职位并自动保存为.csv文本）

拉勾爬虫实战（通过输入关键字爬取任意职位并自动保存为.csv文本）

Python抓取网页并保存为PDF

Python中把矩阵保存为图片

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)