前言
本人学习网络爬虫有一段时间了,也爬了不少网站。在这期间,我遇到了很多的反爬措施,个人觉得爬虫与反爬虫就像矛和盾一样,矛强大了,盾也必然会升级,有点魔高一尺道高一丈的感觉。今天,我就总结一下我遇到的一些反爬策略。
正文
1、在请求头做限制,其中最长见的就是user-agent,如果你的爬虫不进行请求头伪装,那么网站不会给你返回数据,还有些网站会判断referer和请求头的其他一些字段。
2、验证码,这个一直是令人比较头疼的问题,当你请求次数过多或者请求过于频繁时,网站直接给你弹个验证码,导致你不能继续获取数据,那些图片验证码还比较好解决,但是像那些滑动的验证码就比较棘手了。当然,你可以用代理IP来解决这个问题,或者降低爬虫的爬取速度。
3、特殊字体,这个是我爬大众点评时遇到的,直接查看网页源代码会发现有些字不能显示,还有一些乱码。
4、数据加密,这个也挺头疼的,你拿到的数据是加密的,需要去分析JS代码,找出解密的方法。
5、前端页面反调试,当你企图分析网站页面时,发现无法进行调试。
后记
暂时就遇到这么多了,以后会继续更新。
未完待续