网站的常见反爬方法总结

前言

本人学习网络爬虫有一段时间了,也爬了不少网站。在这期间,我遇到了很多的反爬措施,个人觉得爬虫与反爬虫就像矛和盾一样,矛强大了,盾也必然会升级,有点魔高一尺道高一丈的感觉。今天,我就总结一下我遇到的一些反爬策略。

正文


1、在请求头做限制,其中最长见的就是user-agent,如果你的爬虫不进行请求头伪装,那么网站不会给你返回数据,还有些网站会判断referer和请求头的其他一些字段。
2、验证码,这个一直是令人比较头疼的问题,当你请求次数过多或者请求过于频繁时,网站直接给你弹个验证码,导致你不能继续获取数据,那些图片验证码还比较好解决,但是像那些滑动的验证码就比较棘手了。当然,你可以用代理IP来解决这个问题,或者降低爬虫的爬取速度。
3、特殊字体,这个是我爬大众点评时遇到的,直接查看网页源代码会发现有些字不能显示,还有一些乱码。
4、数据加密,这个也挺头疼的,你拿到的数据是加密的,需要去分析JS代码,找出解密的方法。
5、前端页面反调试,当你企图分析网站页面时,发现无法进行调试。

后记

暂时就遇到这么多了,以后会继续更新。




未完待续

发布了187 篇原创文章 · 获赞 289 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/Deep___Learning/article/details/104625614