利用代理IP爬取京东网站手机数据

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u012535605/article/details/82856091

1.代理简介       

       在爬虫过程中如果经常用自己的IP进行爬虫会出现IP被封的可能,这就要用到代理技术,通过爬取代理网站的IP地址,每次爬取页面就随机选择一个IP地址进行爬取,这样就会降低IP被封的可能性。

       代理(英语:Proxy),也称网络代理,是一种特殊的网络服务,允许一个网络终端(一般为客户端)通过这个服务与另一个网络终端(一般为服务器)进行非直接的连接。一些网关、路由器等网络设备具备网络代理功能。一般认为代理服务有利于保障网络终端的隐私或安全,防止攻击。

国内常用的代理网站有以下2个:

1.http://www.xicidaili.com/

2.https://www.kuaidaili.com/free/inha/

2.爬取代理IP和京东数据

3.报错分析

在爬取的过程中会报如下错误:分析原因主要是代理IP不稳定爬取过程中会中断,多试几次就OK了

URLError: <urlopen error EOF occurred in violation of protocol (_ssl.c:748)> 

URLError: <urlopen error [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。>

4.爬取结果

猜你喜欢

转载自blog.csdn.net/u012535605/article/details/82856091