Python3网络爬虫教程5——ProxyHandler处理（代理服务器和代理IP）

编程语言 2019-01-18 16:16:48 阅读次数: 0

版权声明：本文章为沐言-BigTree原创，转载复制请标明出处 https://blog.csdn.net/u011318077/article/details/86538042

上接：
Python3网络爬虫教程4——UserAgent的使用(用户伪装)(附常用的UserAgent值清单
[https://blog.csdn.net/u011318077/article/details/86508095]

3. ProxyHandler处理（代理服务器）

使用代理IP，是爬虫的常用手段
服务器有反爬虫手段，使用代理就是反反爬虫
获取代理服务器的地址：
- www.xicidaili.com
- www.goubanjia.com
代理用了隐藏真实的访问，代理也不允许频繁的访问某一个固定的网址，
所以代理IP一定要很多很多,然后更换不同的IP访问
基本使用步骤：
- 设置代理地址
- 创建ProxyHandler
- 创建Opener
- 安装Opener
- 看案例43_10
  43_10

# 使用代理IP访问一个网站
# 选取一个不上的网站，防止IP被封，以后访问不了
# 网址：http://www.cnqiang.com/
# 免费代理IP网站：http://www.goubanjia.com/


from urllib import request, error

if __name__ == '__main__':

    url = 'http://www.cnqiang.com/'

    # 使用代理的步骤
    # 1.设置代理IP,进入代理网站选择一个IP:PORT
    proxy = {'http': '47.97.190.145:9999'}
    # 2.创建ProxyHandler
    proxy_handler = request.ProxyHandler(proxy)
    # 3.创建Opener
    opener = request.build_opener(proxy_handler)
    # 4.安装Opener
    request.install_opener(opener)

    # 现在如果访问url,就会使用代理服务器
    try:
        rsp = request.urlopen(url)
        html = rsp.read().decode()
        print(html)
    except error.URLError as e:
        print(e)
    except error.HTTPError as e:
        print(e)
    except Exception as e:
        print(e)

下接：
Python3网络爬虫教程6——cookie & session（cookie的属性，保存及模块的使用）

猜你喜欢

转载自blog.csdn.net/u011318077/article/details/86538042

Python3网络爬虫教程5——ProxyHandler处理（代理服务器和代理IP）

Python3网络爬虫——（3）代理服务器设置（IP代理使用）

Python爬虫6-利用ProxyHandler设置代理服务器

ProxyHandler处理器（爬虫代理IP）

爬虫--代理服务器ip

Python3网络爬虫(四)：使用User Agent和代理IP隐藏身份

Python网络爬虫之ProxyHandler处理器（IP代理设置）

python爬虫教程--代理服务器

Python3爬虫代理服务器与cookie的使用

使用Python搭建代理服务器- 爬虫代理服务器详细指南

Python3网络爬虫：Selenium chrome配置代理Python版的方法

Python3网络爬虫(十一)：爬虫黑科技之让你的爬虫程序更像人类用户的行为(代理IP池等)

1 网络爬虫_设置代理服务器

python3网络编程 UDP服务器和客户端

python爬虫之抓取代理服务器IP

python爬虫如何抓取代理服务器

Python 爬虫入门<四>——代理服务器

python爬虫005-代理服务器的设置

Python网络爬虫笔记（9）ProxyHandler处理器（代理设置）

【Python 爬虫教程】如何高效的获取中国代理服务器？

python3网络爬虫系列（二）用这一招！我终于有了免费好用的代理IP池

python3网络爬虫--使用Ip代理爬取新浪微博上小姐姐照片（附源码）

《Python3网络爬虫开发实战》教程

Python3.x爬虫---代理服务器的设置

python中ProxyHandler处理器（代理）

什么是代理IP（代理服务器）如何正确使用代理IP（代理服务器）

Python TCP代理服务器

网络代理、代理服务器介绍

python3网络编程_两台电脑上测试服务器和客户端

python爬虫之ProxyHandler代理

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)