前言：
“分点学习爬虫项目”，来源《从零开始学Python网络爬虫》由浅入深共有22个项目分知识点逐步掌握爬虫技术
"自己写的爬虫项目"慢慢学习慢慢写，就都搁这里汇总
"前人汇总GitHub爬虫项目"顾名思义是来至于前人总结好的一些github上的项目，目前这里有31个项目

自话：“分点学习爬虫项目”的源码，我暂时还没有整理出来，先列出项目清单，大概每个周末更新一下项目（emm，画大饼，不会引起民愤吧），前面简单的更新的快些，到后面的可能会慢一些，有时间就更一下，大家可以监督一哈我，别让我偷懒，嘻嘻。——2019.12.3

分割线：期末复习周了，“分点学习爬虫项目”第四节后的内容将不定期更新（看看什么时候有空），过了这段时间再恢复更新。——2019.12.21

分点学习爬虫项目

一、我的第一个爬虫

1.爬取小猪短租网北京地区短租房信息（2019.12.7更）在控制台显示结果
2.爬取酷狗TOP500音乐信息（2019.12.7更）在控制台显示结果
二、正则表达式
3. 爬取《斗破苍穹》全文小说（2019.12.8更）存储格式为TXT文件
4. 爬取糗事百科笑话¹

三、lxml库和Xpath语法

5. 爬取豆瓣网图书TOP250的数据（2019.12.15更）存储格式为CSV文件
6. 爬取起点中文网小说信息（2019.12.15更）存储格式为Excel文件

四、使用API

7. 爬取PEXELS图片²

8. 爬取糗事百科网的用户地址³

五、数据库存储

9. 爬取豆瓣音乐TOP250的数据（2020.1.1更）存储形式为MongoDB
10. 爬取豆瓣电影TOP250的数据（2020.1.4更）存储形式为MySql

扫描二维码关注公众号，回复： 9052000 查看本文章

六、多进程爬虫

11. 爬取简书网热评文章（2020.1.17更）存储形式为MongoDB
12. 爬取转转网二手市场商品信息（2020.1.18更）存储形式为MongoDB

七、异步加载

13. 爬取简书用户动态信息（2020.1.21更）存储形式为MongoDB
14. 爬取简书网7日热门信息⁴

八、表单交互与模拟登入

15. 爬取拉勾网招聘信息（2020.2.2更）存储形式为MongoDB
16. 爬取新浪微博好友圈信息

九、Selenium模拟浏览器

17. 爬取QQ空间好友说说
18. 爬取淘宝商品信息

十、Scrapy爬虫框架

19. 爬取简书网热门专题信息
20. 爬取知乎网Python精华话题
21. 爬取简书网专题收录文章
22. 爬取简书网推荐信息

自己写的爬虫项目

前人汇总GitHub爬虫项目

WechatSogou [1]:微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口，可以扩展成基于搜狗搜索的爬虫，返回结果是列表，每一项均是公众号具体信息字典。

DouBanSpider [2]:豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中，可方便大家筛选搜罗，比如筛选评价人数>1000的高分书籍；可依据不同的主题存储到Excel不同的Sheet ，采用User Agent伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避免爬虫被封。

zhihu_spider [3]:知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系，爬虫框架使用scrapy，数据存储使用mongo

bilibili-user [4]:Bilibili用户爬虫。总数据数：20119918，抓取字段：用户id，昵称，性别，头像，等级，经验值，粉丝数，生日，地址，注册时间，签名，等级与经验值等。抓取之后生成B站用户数据报告。

SinaSpider [5]:新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录，可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。

distribute_crawler [6]:小说下载分布式爬虫。使用scrapy,Redis, MongoDB,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现,爬虫状态显示使用graphite实现，主要针对一个小说站点。

CnkiSpider [7]:中国知网爬虫。设置检索条件后，执行src/CnkiSpider.py抓取数据，抓取数据存储在/data目录下，每个数据文件的第一行为字段名称。

LianJiaSpider [8]:链家网爬虫。爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码，包括链家模拟登录代码。

scrapyjingdong [9]:京东爬虫。基于scrapy的京东网站爬虫，保存格式为csv。

QQ-Groups-Spider [10]:QQ 群爬虫。批量抓取 QQ 群信息，包括群名称、群号、群人数、群主、群简介等内容，最终生成 XLS(X) / CSV 结果文件。

wooyunpublic [11]:乌云爬虫。乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在mongodb中，大概约2G内容；如果整站爬全部文本和图片作为离线查询，大概需要10G空间、2小时（10M电信带宽）；爬取全部知识库，总共约500M空间。漏洞搜索使用了Flask作为web server，bootstrap作为前端。

findtrip [12]:机票爬虫（去哪儿和携程网）。Findtrip是一个基于Scrapy的机票爬虫，目前整合了国内两大机票网站（去哪儿 + 携程）。

163spider [13]:基于requests、MySQLdb、torndb的网易客户端内容爬虫

doubanspiders [14]:豆瓣电影、书籍、小组、相册、东西等爬虫集

QQSpider [15]:QQ空间爬虫，包括日志、说说、个人信息等，一天可抓取 400 万条数据。

baidu-music-spider [16]:百度mp3全站爬虫，使用redis支持断点续传。

tbcrawler [17]:淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息，数据存储在mongodb。

stockholm [18]:一个股票数据（沪深）爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。

BaiduyunSpider [19]:百度云盘爬虫。

Spider [20]:社交数据爬虫。支持微博,知乎,豆瓣。

proxy pool [21]:python爬虫代理IP池(proxy pool)。

music-163 [22]:爬取网易云音乐所有歌曲的评论。

jandan_spider [23]:爬取煎蛋妹纸图片。

CnblogsSpider [24]:cnblogs列表页爬虫。

spider_smooc [25]:爬取慕课网视频。

CnkiSpider [26]:中国知网爬虫。

knowsecSpider2 [27]:知道创宇爬虫题目。

aiss-spider [28]:爱丝APP图片爬虫，以及免支付破解VIP看图。

SinaSpider [29]:动态IP解决新浪的反爬虫机制，快速抓取内容。

csdn-spider [30]:爬取CSDN上的博客文章。

ProxySpider [31]:爬取西刺上的代理IP，并验证代理可用性

糗事百科服务器在升级当中，暂不做爬取练习-2019.12.8 ↩︎
原本的API接口失效了-2019.12.31 ↩︎
糗事百科服务器在升级当中，暂不做爬取练习-2019.12.31 ↩︎
网页结构有变动，无“七日热门”板块 ↩︎

莫莫先生

发布了56 篇原创文章 · 获赞 70 · 访问量 8891

私信关注

总数量超过五十个，史上最全的爬虫项目集合

文章目录

分点学习爬虫项目

自己写的爬虫项目

前人汇总GitHub爬虫项目

猜你喜欢