爬虫之反爬虫技术

学习爬虫肯定要了解反爬虫技术,因为在你爬取网页的时候不可避免的会遇到各种各样的反爬虫技术,但是大致可以分为四类
1.robots.tet文件,这是一个君子协定,你遵守也行,不遵守也行,但是一般情况下我是不遵守的,我不是君子
2,通过你的访问频率来判断你是否是爬虫,这个我们可以通过下载限速来规避,也可以使用代理ip达到目的
3.通过User-Agent来控制访问,这个我在上一篇博客中提到过详细的内容,想看的可以去看一下https://blog.csdn.net/oyjl19961216/article/details/82776349
4,通过ajax来实现反爬虫,这个是爬虫中遇到的最难得问题,因为如果一个网页是ajax请求的话,那么你的requests.get 或post 都不会得到任何有用的数据,不过道高一尺魔高一丈,咳咳,是一山更比一山高,我们还可以使用selenium来解决这个问题,这是使用selenium的详解https://blog.csdn.net/oyjl19961216/article/details/82777897

谢谢大家

猜你喜欢

转载自blog.csdn.net/oyjl19961216/article/details/82792791
今日推荐