python学习5 爬虫老是被封如何解决

先设置等待时间:

常见的设置等待时间有两种,一种是显性等待时间(强制停几秒),一种是隐性等待时间(看具体情况,比如根据元素加载完成需要时间而等待)图 1 是显性等待时间设置,图 2 是隐性。

Python爬虫动态ip代理防止被封的方法
 
Python爬虫动态ip代理防止被封的方法
 

第二步,修改请求头:

识别你是程序还是网友浏览器浏览的重要依据就是 User-Agent,比如网友用浏览器浏览就会使这个样子的 User-Agent:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36’

Python爬虫动态ip代理防止被封的方法
 

第三步,采用代理 ip / 建代理 ip 池

\

直接看代码。利用动态 ip 代理,可以强有力地保障爬虫不会被封,能够正常运行。图 1 为使用代理 ip 的情况,图 2 是建 ip 代理池的代码,有没有必要需要看自己的需求,大型项目是必须用大量 ip 的。

Python爬虫动态ip代理防止被封的方法

猜你喜欢

转载自www.cnblogs.com/adret/p/12297399.html