Python 分布式爬虫框架 Scrapy 7-1 爬虫与反爬虫

先明确几个概念

爬虫-自动获取网站数据的程序,关键是批量的获取

反爬虫-使用技术手段防止爬虫程序的方法

误伤-反爬技术将普通用户识别为爬虫,如果误伤过高, 效果再好也不能用(误伤比较大的就是禁IP:一个学校就是一个局域网,它对外的IP就是几个,如果禁掉,网站损失的将是大量用户;此外IP是动态分配的,重启路由器可能会使IP变动,那么正常用户今后有可能被分配了被禁的IP)

成本-反爬虫需要的人力和机器成本

拦截-成功拦截爬虫,一般拦截率越高,误伤率越高

反爬虫的目的

初级爬虫-简单粗暴,不管服务器压力,容易弄挂网站

数据保护

失控的爬虫-由于某些情况下,忘记或者无法关闭的爬虫

商业竞争对手

爬虫与反爬虫的对抗过程

还有几个反爬的策略是检测是否只请求html而不请求js,或者不禁止但是返回假数据。但

网站不可能从根本上解决爬虫问题。

接下来几节先讲解scrapy原理,再实现随机轮换设置User-agent、使用IP代理池获取IP、禁用cookies、模拟登陆、养账号、爬虫限速、识别验证码和selenium模拟浏览器中的几种技术。

发布了101 篇原创文章 · 获赞 26 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/liujh_990807/article/details/100085179
今日推荐