python网络爬虫之如何伪装逃过反爬虫程序的方法 - 代码天地

python网络爬虫之如何伪装逃过反爬虫程序的方法

其他 2020-03-23 22:49:53 阅读次数: 0

本篇文章主要介绍了python网络爬虫之如何伪装逃过反爬虫程序的方法，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看
有的时候，我们本来写得好好的爬虫代码，之前还运行得Ok, 一下子突然报错了。

报错信息如下：

Http 800 Internal internet error

这是因为你的对象网站设置了反爬虫程序，如果用现有的爬虫代码，会被拒绝。

之前正常的爬虫代码如下：

from urllib.request import urlopen
...
html = urlopen(scrapeUrl)
bsObj = BeautifulSoup(html.read(), "html.parser")

这个时候，需要我们给我们的爬虫代码做下伪装，

给它添加表头伪装成是来自浏览器的请求

修改后的代码如下：

import urllib.parse
import urllib.request
from bs4 import BeautifulSoup
...
req = urllib.request.Request(scrapeUrl)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)') 
response = urllib.request.urlopen(req) 
html = response.read()
  
bsObj = BeautifulSoup(html, "html.parser")

Ok,一切搞定，又可以继续爬了。

以上就是本文的全部内容，希望对大家的学习有所帮助
最后给大家推荐一个口碑不错的python聚集地【点击进入】，这里有很多的老前辈学习技巧，学习心得，面试技巧，职场经历等分享，更为大家精心准备了零基础入门资料，实战项目资料，每天都有程序员定时讲解Python技术，分享一些学习的方法和需要留意的小细节

发布了27 篇原创文章 · 获赞 25 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/haoxun12/article/details/105058130

python网络爬虫之如何伪装逃过反爬虫程序的方法

python10行代码，让你成功伪装逃过反爬虫程序

python基于scrapy框架的网络爬虫程序反爬虫机制之User-Agent伪装

Python爬虫自学之第（①）篇——爬虫伪装和反“反爬”

python爬虫——爬虫伪装和反“反爬”

《封号码罗》python爬虫之30行代码破解图片伪装反爬虫（一）

网络爬虫伪装的方法有哪些？

python之爬虫的入门01------爬虫原理、爬虫伪装

Python网络爬虫:伪装浏览器

python网络爬虫--浏览器伪装

Python爬虫（一）：爬虫伪装

Python 爬虫（一）：爬虫伪装

Python 从零开始爬虫(一)：爬虫伪装&反“反爬”

python 爬虫伪装

网络爬虫反爬虫

不止是图片伪装反爬虫

Python的爬虫与反爬虫

python爬虫之反爬虫与反反爬虫持续更新

Python之爬虫（二十四）爬虫与反爬虫大战

python爬虫伪装技术应用

网络爬虫之反爬小综述

python爬虫之urllib,伪装,超时设置,异常处理

python学习笔记之（爬虫浏览器伪装）（四）

伪装豆瓣爬虫程序——如何解决豆瓣禁用爬虫程序？

Python3爬虫学习之应对网站反爬虫机制的方法分析

反爬虫机制（一）----伪装User-Agent之fake-useragent

反爬虫机制----伪装User-Agent之fake-useragent

网络爬虫之Python

python之网络爬虫

爬虫与反爬之-爬虫

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)