Python学习之爬虫05-爬虫的浏览器伪装技术实战 - 代码天地

Python学习之爬虫05-爬虫的浏览器伪装技术实战

其他 2019-01-27 16:28:33 阅读次数: 0

Python学习之爬虫05-爬虫的浏览器伪装技术实战

概念：

报头：每次请求的时候我们都会有一个请求头(登个百度首页都会有好多次请求)，也叫报头。它的内容就是这部分：

我们先在浏览器页面按F12，一般都是这个键，然后会调出右边部分，接着我们刷新CSDN博客的首页，达到发送请求的目的，点击途中的1/2/3，3就是我们所需要的报头，这个user-agent后面的内容就是报头。

原理：

每次请求的报头会记录我们是通过什么去访问的，不同浏览器的报头不一样，爬虫的报头也和浏览器的不一样。所以我们这里在请求的时候修改报头，将报头改为浏览器的即可。

练习时使用的是谷歌浏览器，所以：报头为：

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36

由于urlopen() 方法对于一些HTTP的高级功能不支持，所以，我们如果想修改报头，可以使用urllib.request.opener()进行。

还可以使用urllib.request.Request() 下的add_header()实现。

#浏览器伪装
import urllib.request
url="https://blog.csdn.net/"
#头文件格式header=("user-agent",具体用户代理值)
headers=("user-agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36user-agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36")
opener=urllib.request.build_opener()
opener.add_handler=[headers]
data=opener.open(url).read()
fh=open("G:\\Python_Test\\urllib_test\\headers.html","wb")	# 上面在读取文件的时候没有使用到utf-8来转码，所以是一个二进制文件，对于二进制文件的写入需要加一个 b，所以这里使用 wb 表示写。
fh.write(data)
print(len(data))
fh.close()

报头请求

猜你喜欢

转载自blog.csdn.net/xxydzyr/article/details/86617278

Python学习之爬虫05-爬虫的浏览器伪装技术实战

python学习笔记之（爬虫浏览器伪装）（四）

Python网络爬虫---爬虫的异常处理实战、浏览器伪装技术实战

Python网络爬虫：自动模拟HTTP请求&爬虫的异常处理&爬虫浏览器伪装技术&新闻爬虫实战

爬虫的浏览器伪装技术（019）

爬虫的浏览器伪装技术

爬虫--浏览器伪装技术（urllib）

Python爬虫：Fiddler的使用和浏览器伪装技术

Requests爬虫之伪装浏览器

python爬虫伪装浏览器

Python网络爬虫:伪装浏览器

python网络爬虫--浏览器伪装

爬虫基础-----爬虫的浏览器伪装技术

爬虫笔记（十二）——浏览器伪装技术

爬虫的浏览器伪装技术代码实例

python爬虫.2.伪装浏览器

Python爬虫3-----浏览器伪装

Python爬虫伪装浏览器，初步提取信息！

Python数据挖掘学习笔记（8）爬虫异常处理与浏览器伪装

[伪装浏览器报头]html爬虫伪装头

urllib基础、超时设置、Get与Post请求、异常处理、浏览器伪装、Python新闻爬虫实战

python爬虫之美剧排行榜爬取(加浏览器伪装，代理，异常处理)

Python数据爬虫学习笔记（12）爬取腾讯视频评论数据（Fiddler抓包+浏览器伪装）

python学习，浏览器伪装

用户代理列表--爬虫伪装浏览器访问用

爬虫02-简单伪装浏览器

python爬虫隐藏自身的ip并伪装成浏览器

Python实现爬虫设置代理IP和伪装成浏览器的方法分享

Python爬虫+requests+伪装浏览器爬取小说入门总结

python—爬虫伪装成浏览器的三种方法

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)