爬取爬虫学习资料 - 代码天地

爬取爬虫学习资料

其他 2019-06-26 16:16:16 阅读次数: 0

版权声明：版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_42658739/article/details/89812772

如有不得当之处，请联系我会及时删除

这次的抓取我用的是requests和Xpath,因为没有必要使用大型工具

import requests
from lxml import etree

思路：
1.目的是下载爬虫教程
2.分析网页以及规则，使用Xpath简单获取下载url
3.循环下载

代码如下：

class github():
	def __init__(self):
		self.allowed_domains = 'https://github.com/Python3WebSpider'
		self.headers = {
			'User-Agent':'*****请换成你们自己的 '
		}
	def spider_pipline(self):
		response1 = requests.get(self.allowed_domains,headers = self.headers,timeout = 5)
		selector = etree.HTML(response1.text)
		main_hrefs = selector.xpath('//div[@id="org-repositories"]//ul/li/div[@class="d-inline-block mb-1"]//a/@href')
		for start_href in main_hrefs:
			href = 'https://github.com'+ start_href
			response2 = requests.get(href, headers=self.headers, timeout=5)
			selector2 = etree.HTML(response2.text)
			href = selector2.xpath('//main[@id="js-repo-pjax-container"]//div[@class="get-repo-modal-options"]/div[@class="mt-2"]/a[2]/@href')
			for item in href:
				item_new = 'https://github.com'+item
				# yield item_new
				# print(item_new)
				r = requests.get(item_new)
				item = item[18:].replace('/','-')
				# print(item)
				with open(item, "wb") as git_zip:
					git_zip.write(r.content)
					print('done-')

if __name__ == '__main__':
	git = github()
	git.spider_pipline()
	print('down——OK')

最后的最后，建议大家给GitHub博主送个星，那个博主也是我崇拜的偶像呢！他的书很不错！建议买书进行学习、有利于知识体系的结构化构建

如有冒犯之处，请联系删除相应内容。

猜你喜欢

转载自blog.csdn.net/qq_42658739/article/details/89812772

爬取爬虫学习资料

python爬虫学习资料以及多个网页爬取的源码

爬虫反反爬学习资料整理

爬虫—历史天气预报资料爬取

爬虫学习----动态网页爬取

爬虫学习：xpath爬取评书网

《爬虫学习》（五）（爬虫实战之爬取天气信息）

爬虫爬取表情

爬虫爬取图库

爬虫断点爬取

爬虫----爬取答案

python爬虫爬取百度文库txt以及ppt资料

爬虫---实现爬取电影资料和电影评论（豆瓣）

爬虫学习日记二：相关图片的爬取（附代码）

爬虫学习之BeautifuSoup爬取58租房数据

爬虫学习（一）---爬取电影天堂下载链接

爬虫学习（二）--爬取360应用市场app信息

python爬虫学习之路(1) 利用urllib爬取网站

爬虫学习打卡5——将爬取数据放入Excel

爬虫学习打卡6——将爬取数据放入MongoDB

爬虫学习--MOOC爬取豆瓣top250

爬虫学习之猫眼TOP100爬取

Python爬虫学习笔记（七）——智高考数据爬取

python3 爬虫学习之爬取猫眼电影

【Python爬虫学习笔记12】Ajax数据爬取简介

Python网络爬虫学习之爬取豆瓣电影（四）

Java爬虫学习《一、爬取网页URL》

python爬虫学习笔记三：图片爬取

爬虫学习（七）——带cookie的网页进行爬取

爬虫学习（五）————百度贴吧的爬取

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)