python爬虫教程--代理服务器 - 代码天地

python爬虫教程--代理服务器

企业开发 2023-04-07 11:52:47 阅读次数: 0

一.代理服务器设置

如果使用同一个IP去爬取一个网站的网页，时间久了会别该网站服务器屏蔽，所以，为了防止出现自己的IP被网站服务器屏蔽的事情发生，我们可以使用比如的IP，就算别屏蔽了，也是别人的IP，如果不知道怎么找代理服务器的可以到网上找

首先我们介绍几个方法：

ProxyHandler() 方法：这个是设置对应的服务器信息，设置格式如下：url.request.ProxyHandler({'http':代理服务器的地址})

build_open()方法：这个方法创建一个自定义的opener对象

例如：

def use_proxy(proxy_addr,url):
    import urllib.request
    proxy=urllib.request.ProxyHandler({'http':proxy_addr})
    opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
    urllib.request.install_opener(opener)
    data=urllib.request.urlopen(url).read().decode('utf-8')
    return data
proxy_addr="202.75.210.45:7777"
data=use_proxy(proxy_addr,"http://www.baidu.com")
print(len(data))

二.DebugLog实战

如果想在程序运行时边运行边打印调试日志，此时就需要开启Debuglog，开启Bebuglog方法如下：

（1）使用urllib.request.HTTPHandler()和urllib.request.HTTPShandler()将debuglevel设置为1

（2）使用urllb.request.build_opener()创建自定义的opener对象，并使用（1）中设置的值作为参数

（3）使用urllib.request.install_opener()创建全局默认的opener对象，这样，使用urlopen时也会自动使用我们安装的opener对象

（4）进行后续操作

根据上面的思路，可以通过代码开启BebugLog：

import urllib.request
httphd=urllib.request.HTTPHandler(debuglevel=1)
httpshd=urllib.request.HTTPSHandler(debuglevel=1)
opener=urllib.request.build_opener(httphd,httpshd)
urllib.request.install_opener(opener)
data=urllib.request.urlopen("http://www.baidu.com")

当我们运行程序时就会打印调试的Log日志

猜你喜欢

转载自blog.csdn.net/weixin_63009369/article/details/129476595

python爬虫教程--代理服务器

使用Python搭建代理服务器- 爬虫代理服务器详细指南

【Python 爬虫教程】如何高效的获取中国代理服务器？

python爬虫如何抓取代理服务器

Python 爬虫入门<四>——代理服务器

python爬虫005-代理服务器的设置

爬虫--代理服务器ip

Python3网络爬虫教程5——ProxyHandler处理（代理服务器和代理IP）

Python TCP代理服务器

Python爬虫2------爬虫屏蔽手段之代理服务器实战

1 网络爬虫_设置代理服务器

爬虫笔记（四）——代理服务器的设置

爬虫防屏蔽之代理服务器运用

爬虫时如何使用代理服务器

如何搭建自己的爬虫代理服务器

Python3爬虫代理服务器与cookie的使用

Python数据挖掘学习笔记（11）爬虫防屏蔽之代理服务器

python爬虫之抓取代理服务器IP

Python爬虫——代理服务器进行信息的爬取

Python3.x爬虫---代理服务器的设置

Python爬虫6-利用ProxyHandler设置代理服务器

python 爬虫 1 （urllib、requests的使用、代理服务器）

代理服务器

代理服务器？

zabbix_proxy代理服务器搭建教程

50行Python代码实现代理服务器的详细教程

爬虫代理服务器的使用，利用代理服务器爬取百度

Python3网络爬虫——（3）代理服务器设置（IP代理使用）

代理服务器及反向代理

python 实现代理服务器

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)