python超简单爬虫教程

其他 2020-06-19 10:15:39 阅读次数: 0

python超简单爬虫教程

python超简单爬虫教程

七大步骤：

1发送数据请求
2请求网站源码
3数据筛选
4存储数据
5数据可视化
6数据分析
7公司决策

python超简单爬虫教程

大家好！在这里给大家交流一下小编总结得python超简单爬虫教程，废话不多说，直接上代码

七大步骤：

1发送数据请求

2请求网站源码

3数据筛选

4存储数据

5数据可视化

6数据分析

7公司决策

完整代码如下：

import request
import re
import xlwt
#获取源码
def get_content(page):
	url = 'https://www.zhipin.com/c101010100-p100109/?page='+str(page)+'&ka=page-'+str(page)+''
	headers = {
		"user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2727.400"
 	}
	req = request.get(url,headers=headers)
	req.encoding = 'utf-8'
	html = req.text
	return html 	
#筛选数据 获取满足正则表达式所爬去的目标
def get(html):
	reg = re.compile(r'class="job-tab".*?<div class="job-title">(.*?)</div>.*?<span class="red">(.*?)</span>.*?target="_blank">(.*?)</a>',re.S)
	item = re.findall(reg,html)
	return items
datalist = []
def saveDataToDatalist():
	for j in range(1,6)
		print('正在爬取第'+str(j)+'页数据内容。。。')
		html get_content(j)
		for i in get(html)
			data = []
			for j in range(0,5):
				data.append(i[j])
			datalist.append(data)
	return
#创建方法将datalist内容写入excel文件
def saveDataToExcel(savePath):
	book = xlwt.Workbook(encoding='utf-8',style_compression=0)
	sheet = book.add_sheet('boss',cell_overwrite_ok=Ture)
	col = ('职位','薪资','公司名称')
	for i in range(0,5)
		sheet.wirte(0,i,col[i])
	for i in range(0,len(0,len(datalist)):
		data = datalist[i]
		for j in range(0,5):
		sheet.wirte(i+1,j,data[j])
	book.save(savePath)
saveDataToDatalist()
saveDataToExcel('boss.xls')

就这样了，都看到这里了，点赞关注走一走吧，谢谢大家！
django项目部署上线完整教程(ContenOS)

猜你喜欢

转载自blog.csdn.net/weixin_43968789/article/details/106720286

python超简单爬虫教程

python超简单爬虫

Python 超简单安装教程 Linux

Python turtle库func（超简单教程）

超简单的网页爬虫

Python高级教程：简单爬虫实践案例

超级简单的python爬虫详细教程！！

python爬虫知识点超详细教程

超简单的Scrapy爬虫框架

在python中超简单安装mxnet (附conda安装教程)

python爬取网易云评论超简单教程

python爬虫入门教程(非常详细),超级简单的Python爬虫教程

python爬虫入门教程(非常详细),超级简单的Python爬虫保姆教程

爬虫教程」Python做一个简单爬虫，小白也能看懂的教程

「爬虫教程」Python做一个简单爬虫，小白也能看懂的教程

简单的python爬虫教程：批量爬取图片

爬虫的概述及简单实践练习|python入门教程

用python爬荣耀皮肤图片（爬虫最基础题，python爬虫教程，超详细+完整代码）

超简单的ElasticSearch安装教程

Mysql安装教程:超简单

Python爬虫学习：简单的爬虫

超详细的python教程，破解有道翻译反爬虫机制，我学到了很多！

Python爬虫教程-爬取5K分辨率超清唯美壁纸源码

Python爬虫，超简单地实现一键提取阴阳师原画

jsoup爬虫工具超简单使用(记录)

python爬虫入门教程(二)：开始一个简单的爬虫

python爬虫教程

【爬虫】Python Scrapy 教程

Python 爬虫教程

python爬虫教程：jsonPath

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)