python爬虫之ProxyHandler代理 - 代码天地

python爬虫之ProxyHandler代理

其他 2020-04-21 01:43:48 阅读次数: 0

很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。
在这里插入图片描述
如果不使用代理IP时，我们都是通过上面红色通道对服务器进行访问，当访问次数多了，服务器的反爬机制就会禁用我们的ip，当查看到本地ip地址时，就直接返回错误消息。如果我们使用代理ip，当代理ip被禁了，我们可以使用其他的ip继续进行访问。这就是使用代理ip的好处。
所以我们可以设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬取。
urllib.request中通过ProxyHandler来设置使用代理服务器，下面代码说明如何使用自定义opener来使用代理：

代理的原理:在请求目的网站之前,先请求代理服务器,然后让代理服务器去请求目的网站,代理服务器拿到目的网站的数据后,再转发给我们的代码。
http://httpbin.org:这个网站可以方便的查看http请求的一些参数。
在代码中使用代理

使用url1ib. request.Proxyhandler,传入一个代理,这个代理是一个字典,字典的key依赖于代理服务器能够接收的类型,一般是http或者https值是ip:port
使用上一步创建的 handler,以及 request. build_ opener创建一个opener对象。
用上一步创建的 opener,调用`open函数,发起请求。

from urllib import request

url = "http://httpbin.org/ip"
re =request.urlopen(url)
print(re.read().decode("utf-8"))

handler = request.ProxyHandler({"http":"121.237.148.192:3000"})
opener = request.build_opener(handler)
req = request.Request(url)
se = opener.open(url)
print(se.read().decode("utf-8"))

处理结果如下图，本地的IP地址是120.242.254.180，当我们使用代理时，就可以发现访问服务器时使用的ip地址是121.237.148.192。
在这里插入图片描述
以上代码我也上传到git上

发布了54 篇原创文章 · 获赞 9 · 访问量 1213

私信关注

猜你喜欢

转载自blog.csdn.net/qq_29983883/article/details/105494732

python爬虫之ProxyHandler代理

爬虫（ProxyHandler）——代理

Python网络爬虫之ProxyHandler处理器（IP代理设置）

ProxyHandler处理器（爬虫代理IP）

Python网络爬虫笔记（9）ProxyHandler处理器（代理设置）

使用代理访问百度网站 ProxyHandler python 爬虫入门

Python爬虫6-利用ProxyHandler设置代理服务器

【Python3 爬虫】U03_ProxyHandler实现代理

python中ProxyHandler处理器（代理）

爬虫-ProxyHandler代理类-通过代理发起请求

Python3网络爬虫教程5——ProxyHandler处理（代理服务器和代理IP）

[python爬虫之路day2]:ProxyHandler代理器代理IP爬取&&cookie的使用以及实例

爬虫(4)ProxyHandler处理器(代理设置)

Python爬虫之代理检测

python爬虫之代理与Cookie

Python爬虫之代理问题

Python之爬虫搭建代理ip池

python爬虫-python之爬虫的代理ip池建立

ProxyHandler

Python爬虫实例九州动态IP使用HTTP的urllib2中的ProxyHandler设置。

ProxyHandler 处理器（代理设置）

代理设置ProxyHandler处理器

ProxyHandler处理器（代理设置）

爬虫之proxy（代理）

爬虫之cookie与代理

python3下urllib.request库高级应用之ProxyHandler处理器（代理设置）

python爬虫代理设置

Python 爬虫IP代理

Python爬虫代理池

python爬虫用户代理

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)