【小白学爬虫连载（12）】--获取免费高匿代理IP - 代码天地

【小白学爬虫连载（12）】--获取免费高匿代理IP

其他 2018-06-10 05:08:13 阅读次数: 2

欢迎关注【哈希大数据】

【小白学爬虫连载（1）】-爬虫框架简介

【小白学爬虫连载（2）】--Requests库介绍

【小白学爬虫连载（3）】--正则表达式详细介绍

【小白学爬虫连载（4）】-如何使用chrome分析目标网站

【小白学爬虫连载（5）】--Beautiful Soup库详解

【小白学爬虫连载（6）】--Selenium库详解

【小白学爬虫连载（7）】--scrapy框架的安装

【小白学爬虫连载（8）】--scrapy框架入门教程

【小白学爬虫连载（9）】--scrapy构架设计分析

【小白学爬虫连载（10）】--如何用Python实现模拟登陆网站

【小白学爬虫连载（11）】--pyquery库详解

【小白学爬虫连载（12）】--获取免费高匿代理IP

【小白学爬虫连载（13）】--Scrapy如何突破反爬虫

如何获取免费高匿代理IP

前言

我们采集信息时采集速度太大，请求速度过高，占用了大量对方服务器的资源，所以很多网站会采取一些防爬虫技术，如果你一直用一个IP爬取这个网站，很可能导致该IP被禁止访问该网站，所以为了稳定高效的完成爬虫任务，我们需要把IP问题解决了，方法就是使用代理IP，如果商用或者不差钱可以直接购买高匿代理IP。如果现在你处在爬虫探索阶段，那么可以借鉴本篇文章获取免费高匿代理IP，建成自己的代理IP池。

获取代理IP简单来说可按以下三个步骤走：第一，获取代理IP；第二，检测代理IP；第三，保存代理IP。下面进行详细介绍。

第一，获取代理IP

首先我们需要查看哪些网站可以提供高匿代理IP，这里给大家提供几个网站：

讯代理

快代理

西刺代理

代理66

这里给大家分享如何爬取西刺代理和讯代理的高匿IP，在浏览器中打开链接：http://www.xicidaili.com/nn/1，点击F12快捷键打开开发者工具，如下图所示。

我们只需要获取IP地址和端口，网页结构比较简单，本次代码用到了pyquery库解析HTML，pyquery之前我们没有介绍过，后面会拿出一篇具体讲解。

获取讯代理的IP，我们可以直接请求到一个json文件，如下图所示：

获取到json文件后我们直接利用json.load函数进行解析。部分代码如下图所示：

第二步，检测代理IP

在获取到代理IP后，首先需要检测代理IP是否可用，确定可用后再保存起来，检测代理IP所用网址最好用你需要抓取信息的网址。

部分代码如下图所示：

第三步，保存获取到的代理IP

在成功检测代理IP后，本次分享将其保存到一个TXT文件中，这样处理并不是非常好，最好是将代理IP保存到数据库中在使用时能够实时检测代理IP是否可用。利用该程序保存的代理IP，在后面使用时还要先检测一下才行。

想要查看完整代码请关注公众号并回复：ip

需要注意的是代码中用到了pyquery库需要先安装好，可以直接在命令窗口中输入:pip install pyquery进行安装。

小结

本次分享主要介绍了如何获取、检测、保存代理IP，因为很多网站会采取一些防爬虫技术，如果你一直用一个IP爬取这个网站，很可能导致该IP被禁止访问该网站，所以为了稳定高效的完成爬虫任务，我们需要很好解决代理IP问题。

猜你喜欢

转载自blog.csdn.net/hashdata2018/article/details/80520133

【小白学爬虫连载（12）】--获取免费高匿代理IP

python 爬虫获取西刺网免费高匿代理ip

python爬虫抓取,免费高匿快代理 IP

爬虫ip代理对高匿代理ip的必要性

爬虫小程序之爬取西刺免费高匿IP构建代理池

高匿ip代理对爬虫的重要性。什么是高匿ip代理？

为什么爬虫要用高匿代理IP？高匿代理IP有什么优点

分享100个最新免费的高匿HTTP代理IP

爬虫——代理IP的高匿、匿名、透明介绍

如何搭建高匿爬虫代理ip池？

爬虫获取免费代理IP

用于爬虫的高匿动态ip代理要怎么选择？存在哪些猫腻？

selenium爬虫获取免费ip代理

爬虫老是被封IP？看我大Python搭建高匿代理池！封IP你觉得可能吗

爬虫爱好者分析一下什么样的高匿爬虫IP代理性价比最高？

如何判断我们的代理ip是高匿

爬虫（三）：爬取西刺高匿代理

使用高匿代理访问西刺代理（假如ip被封可用高匿ip访问网站）

高匿，普匿与透明代理

爬虫获取免费代理

【Python爬虫实例学习篇】——2、获取免费IP代理

Python爬虫教程：如何使用Python获取免费代理IP

Scrapy框架爬取西刺代理网免费高匿代理的实现代码

【Python爬虫实例学习篇】——6、获取免费IP代理进阶: 在服务器上部署一个高可用代理池（1）

【Python爬虫实例学习篇】——7、获取免费IP代理进阶: 在服务器上部署一个高可用代理池（2）

Python3爬取西刺代理前2页国内高匿代理IP并验证有效性，若获取失败，使用快代理获取IP存入表格中

【小白学爬虫连载（1）】-爬虫框架简介

【小白学爬虫连载（13）】--Scrapy如何突破反爬虫

Python爬取西刺国内高匿代理ip并验证

python：多线程抓取西刺和快站高匿代理IP

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)