幸好有你,一份 Python3 爬虫教程!

幸好有你,一份 Python3 爬虫教程!

 

Introduction

网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。可以高效的获取信息,整理你不想要网页版式,以及你懒得访问的(此处rss也可以办到,但rss受制于网站)。

不能爬取不公开,私密信息!!!

如果想爬私密信息,请出门左转。

本人私人微信mmp9972欢迎添加,免费分析Python视频教程以及各类PDF!

我的爬虫记录、你爱看不看。

Experimental section

古话常说:工欲善其事,必先利其器。(我怎么这么多废话)

器:

浏览器:推荐谷歌,火狐或以其为内核的浏览器。需要满足两个条件:可以直接查看网页源代码(view-source)以及可以进入开发者模式(F12)

当然要拥有Python,要想有个编辑器Pycharm(学生免费使用专业版,良心公司),Anaconda都可以。

此处省略多种杂七杂八的软件及破解版。(更多软件请Baidu or Google)

Results and discussion

思维导图

幸好有你,一份 Python3 爬虫教程!

 

Python3网络爬虫实战思维导图

图源:网络,具体的忘了[1]

爬虫零阶

看完思维导图是不是不想学了!!!

虽说现在有一些爬虫软件,如八爪鱼等。虽说能在最短的速度获取到想要的信息。但是毕竟是软件,受制于软件。如果你想简单的使用这些软件就可以跳过后面的了!

其实学爬虫也不是很难,并不是思维导图上的都要会,想学接着看。(不过时间和兴趣是最重要的)

快速入门

对于快速入门推荐北理工嵩天的MOOC——《Python网络爬虫与信息提取》[2]。

由于视频不是最新制作的所以个别网站的规则改变导致可能试验失败,所以推荐自己找个网站进行试验!

第一周主要是网页请求、用来获取网页源代码。使用的是requests库完成——随意网站即可,如

https://www.baidu.com/

第二周主要是网页解析及提取。使用的是Beautiful Soup库完成,不过据说处理速度有点慢。——推荐

http://books.toscrape.com/ 

(一个喜欢被scraped的网站)

第三周主要是介绍re库,在处理个别网页源代码非标签时有很大用处。——搜狗微信公众号最近文章列表,如人民日报。

第四周随意看,主要是爬虫框架。可以提高爬虫效率,不过此视频这块讲的并不好,但是可以全当了解。

如果你连第三周都坚持不到的话,爬虫不适合你。你可以返回爬虫零阶

爬虫进阶——书

看完入门视频了就该进阶看看书了

Python3网络爬虫开发实战[3]

幸好有你,一份 Python3 爬虫教程!

 

图源:网络

是由北航硕士崔庆才编写,内容详细丰富。强烈推荐!!!

看完估计就过去了很久。

而且最近崔大貌似要预谋下一版了……

精通Scrapy网络爬虫[4]

幸好有你,一份 Python3 爬虫教程!

 

图源:网络

介绍了Scrapy爬虫框架,在看完上一本书的基础上这本一周就能翻完,介绍比较基础。主要介绍的是基础模式,基本没有涉及Scrapy的其他模式

爬虫进阶——视频

python分布式爬虫打造搜索引擎[5]

该视频我没看完,但是它比较应用性的介绍了scrapy爬虫框架,同时也涉及一些其他模式,如:整站爬取(crawl模式)。不过由于部分网站HTML规则改变,源代码可能部分不再适用。

分布式的话如果只想自己搞搞,感觉没必要看。

Python3网络爬虫实战案例教程[6]

没看过= =,据说是Python3网络爬虫开发实战的配套教学视频

(https://cuiqingcai.com/4320.html)

那应该不错呀= =。

爬虫进阶——代码

常逛世界上最大的python交友网站

(https://github.com/)

IP池

我以崔庆才一书中《Python3网络爬虫开发实战》的IP池为基础做了改动,支持多个端口输出用于不同网站的IP,可以提高对于微信等反爬严重的爬取效率,同时,增加及淘汰了一些免费IP网站。不过仍有bug,如淘汰机制过强,运行一天后可能面临枯竭;入库仍分为多个不同的系统等。[7]

Cookie池

没钱买帐号,所以没有玩过(小声bb)

爬虫进阶——杂谈

监控手机

从移动端获取的话,不管是使用Charles还是Fiddler监控安卓机尽量使用安卓7.0以下版本,由于7.0以上版本貌似改变了安全规则,对于有些Https协议的数据解析不出来。苹果系统不知道(没钱买苹果)。同时,小心对于手机软件的“损伤”= =(来自一个监控手机微信失败的人,从此手机微信不在识别以前的账号,消息丢失了一波= =)

安装软件

安装软件自己慢慢安装,遇见问题,先Google,后问人。如果连软件都安装不了的话,也别学这个了= =

幸好有你,一份 Python3 爬虫教程!

 

关于反反爬

是个网站就会做反爬,包括我的网站。所以掌握一些反爬技术至关重要。什么js渲染,数据接口,以及乱七八糟的。

Robots协议

尽量遵守robots协议吧,如果不遵守尽量降低爬取的速度,减少服务器的压力。

道德和法律

请遵守道德和法律底线

因为爬虫的案子也不在少数= =,省的技术没学好,倒先……

爬虫高阶

去PyPI上找库,读文档,看源码

文档有些写的不全,所以分析源码是关键

(来自英语渣渣+Python渣渣的道听途说)

(感觉不做专业的也没这么麻烦吧= =)

Conclusions

学爬虫吧,也是我大一下莫名其妙开始学的。虽说现在技术不好,但也勉强可以做到信息获取。

要说学爬虫的收获嘛,首先学会了Google,其次就是学会了尝试,再其次就是了解了HTML的代码(虽说还是不了解JavaScript),对于现在rss,以及其他的貌似有用吧。

学会Google。光说不练假把式。多练练,多爬爬,熟能生巧。爬一些感兴趣的然后和一些其余软件组合,秀出自己的风采,提升自己的效率。比我自己的网站

(https://chemistrywechat.zkhweb.top/)

(虽说不是很稳定,有今天没明天的那种)

但是也要试错

猜你喜欢

转载自www.cnblogs.com/changqingqiewenrou/p/9897106.html