WebMagic使用阿布云HTTP代理ip

       使用WebMagic进行爬虫的时候,难免会遇到反爬虫机制,今天在使用WebMagic进行爬虫的时候,遇到一个反爬虫,即同一个ip多次访问之后,就会被暂时禁用,具体表现形式是需要在网页输入验证码之后才能继续爬取。为了解决这个问题,使用到了阿布云HTTP代理ip,虽然阿布云官网进行了代码的接入使用方法,但其给的版本太低,我使用的是WebMagic0.7.3版本,导致一直使用不成功,之后通过对查询以及对源码进行解析,最终发现了解决办法。

       0.7.3版本接入方法:

 HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
    httpClientDownloader.setProxyProvider(SimpleProxyProvider.from(new Proxy("接入ip",接入端口,"用户名","密码")));
    spider.setDownloader(httpClientDownloader);
发布了165 篇原创文章 · 获赞 41 · 访问量 8万+

猜你喜欢

转载自blog.csdn.net/qq_41061437/article/details/90524761