爬虫过程中如何构建代理IP池?

做网络爬虫时,一般对代理IP的需求量比较大。因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。
代理IP的获取,可以从以下几个途径得到:

  • 从免费的网站上获取,质量很低,能用的IP极少
  • 购买收费的代理服务,质量高很多
  • 自己搭建代理服务器,稳定,但需要大量的服务器资源。

本文的代理IP池是通过爬虫事先从多个免费网站上获取代理IP之后,再做检查判断IP是否可用,可用的话就存放到MongoDB中,最后展示到前端的页面上。
获取可用Proxy
获取代理的核心代码是ProxyManager,它采用RxJava2来实现,主要做了以下几件事:
1、创建ParallelFlowable,针对每一个提供免费代理IP的页面并行地抓取。
在这里插入图片描述
2、针对每一个页面进行抓取,返回List
在这里插入图片描述
3、对每一个页面获取的代理IP列表进行校验,判断是否可用
在这里插入图片描述
在这里插入图片描述
在做爬虫时,自己维护一个可用的代理IP池是很有必要的事情,当然想要追求更高稳定性的代理IP还是考虑购买比较好。

猜你喜欢

转载自blog.csdn.net/li_zhi521/article/details/84138521