反爬虫的方法大全以及破解方式

  1. 设置了表单请求,通过display:none+hidden进行加密
  2. 将主页信息链接数据保存在js中,js文件经过混淆压缩加密。
  3. 设置了csrf—token禁止跨域访问,设置了Refereer检测,设置了登录频率。
  4. 设置了登录身份验证,设置了装饰器,通过META.get获取请求头,限制请求头和访问间隔。
  5. 设置了cookie和登录成功后的session,并通过url编码方式隐藏cookie。
  6. 设置了自动刷新login页面。
  7. 使用pil设置了登录验证码,并点击刷新验证码,只有鼠标移入才显示。
  8. 设置多层iframe,并利用前端字体文件(.ttf)混淆文本来阻止爬虫爬取网站数据。
  9. 防止无界面浏览器:添加大量Unicode字符,Navigator对象包含有关浏览器的信息。
  10. Webdriver检测(if(navigator))
  11. 检查User—agent
  12. Font-Face拼凑式(猫眼电影)
  13. background拼凑式(大众点评)
  14. 字符串穿插式(微信公众号文章)
  15. 伪元素隐藏式(汽车之家)
  16. 元素定位覆盖式(去哪网 js-position)
  17. iframe异步加载(网易云音乐,aliexpress)
  18. 字符分割式(全网代理ip)
  19. 字符集替换式(去哪儿移动端)

一般网站是不会同时设置n多反爬虫措施的,这样会降低客户的访问量,访问量是网站的生命;
所以不用太过担心遇到哪些极度变态的网站,以上的反爬虫方式,皆有破解之法;

大部分的反反爬措施是必须要耐心和细心,找到对方网站的反爬方法,知道是什么方法自然就能找到破解的方法;

加强自身的知识储备才是唯一的必胜之路,在反爬虫和爬虫的战争中,最终获胜的一定是爬虫能胜利;

但是毕竟大家都是同行,不要太过分,都是混口饭吃,尽量下手的时候轻点。

以上,加油吧

猜你喜欢

转载自blog.csdn.net/weixin_43870646/article/details/88586252