python爬虫使用代理ip或请求头的问题 - 代码天地

python爬虫使用代理ip或请求头的问题

其他 2019-02-18 04:00:58 阅读次数: 0

在request库中使用代理ip实例如下

headers = {
    'User-Agent':
    'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0',
    'Connection':
    'keep-alive',
    'Cookie':
    'session-id=130-1833310-5969908; session-id-time=2082787201l;',
    'referer':
    'https://www.amazon.com/s/ref=nb_sb_noss?field-keywords=%E7%94%B5%E8%84%91&ie=UTF8&language=zh_CN&url=search-alias%3Daps'
}

# 设置代理ip
proxies = {
    'http': 'http://110.52.235.150:9999',
    'https': 'https://58.137.62.133:80'
}
list_html = requests.get(
    'https://www.amazon.com/s/ref=nb_sb_noss?field-keywords=' + keywords +
    '&ie=UTF8&language=zh_CN&url=search-alias%3Daps',
    timeout=timeout,
    headers=headers,
    proxies=proxies,
)

可能会遇到的问题

一、 Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝，无法连接。')))

这种情况是爬取目标对本机进行反爬导致, 目前暂时考虑两种:

ip封锁导致:

解决的关键在于cookie携带还有ip更替, (cookie携带下, 对ip的封锁频率会降低)

请求头referer属性:

部分页面向下访问时会携带referer记录从哪个页面跳转, 有些反爬针对referer进行检测, 如果没有携带或者携带错误会大大增加封锁率

请求头用户代理:

二、Cannot connect to proxy.', NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x00000166942B8D30>: Failed to establish a new connection: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。

这种情况是由于使用的代理ip失效而无法再连接的问题, 可以使用cmd安装tcping命令对ip + 端口进行有效性检查

三、'Connection to 121.61.3.9 timed out. (connect timeout=10)'))
这种情况是由于使用的代理ip连接失效或者连接过于久, 使得超过了程序设定的时间, 可以不设置request的timeout属性以达到最大时间看看是否代理ip失效问题。

猜你喜欢

转载自blog.csdn.net/weixin_33722405/article/details/87042411

python爬虫使用代理ip或请求头的问题

【python爬虫】加密代理IP的使用与设置一套session请求头

Python爬虫伪装，请求头User-Agent池，和代理IP池搭建使用

应对反爬虫策略：使用代理IP、设置请求头、请求频率限制等

NO.2_python_scrapy_反爬虫（随机请求头&IP代理）&取消链接去重

Python爬虫——使用代理IP

Python爬虫使用代理IP

Python爬虫请求头、请求代理以及cookie操作

Python代理IP爬虫的简单使用

Python3 爬虫使用代理 IP

Python 爬虫使用固定代理IP

Python爬虫开发：ip代理的使用

Python爬虫使用代理IP的实现

Python 网页爬虫原理及代理 IP 使用

Python 爬虫IP代理

python爬虫——代理IP

python requests爬虫返回403错误？加了所有特征的请求头+代理也解决不了的问题处理

遇到问题--python--爬虫--使用代理ip第二次获取代理ip失败

Python爬虫代理IP（代理池）——加载和使用

Python爬虫请求头解析

Python网络爬虫—请求头

使用ip代理池爬虫时，requests模块get请求出现问题_AttributeError: 'str' object has no attribute 'get'

爬虫代理IP不够的问题

Python爬虫教程：如何使用Python获取免费代理IP

python 爬虫（三）cookie和session + 爬虫中使用cookie或session实现登录 + 代理的设置（解决ip被封问题）

Python爬虫代理IP池

python爬虫中代理ip

python 爬虫ip代理池

爬虫（14）：使用IP代理

爬虫前奏——代理ip的使用

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)