浏览器伪装技术爬取csdn伪装技术 - 代码天地

浏览器伪装技术爬取csdn伪装技术

其他 2018-09-15 23:26:02 阅读次数: 0

友情提示：一般的网站都会有反爬虫技术，因此想要爬取这些网站信息就必须学会浏览器的伪装

想要伪装成浏览器则必须为爬虫添加浏览器报头信息，这些报头信息需要技术人员亲自从网站代码中复制

例如csdn报头信息如下：

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36


下面给出一个爬虫小实例：爬虫把csdn信息存入data中并输出data数量

 1 import urllib.request
 2 import re
 3 url="http://blog.csdn.net/"
 4 
 5 #伪装成浏览器报头  去浏览器中读代码找到 Use-Agent的值
 6 headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36")
 7 #创建oenener对象
 8 opener=urllib.request.build_opener()
 9 opener.addheader=[headers]
10 #把opener添加为全局
11 urllib.request.install_opener(opener)
12 
13 data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
14 print(len(data))

猜你喜欢

转载自www.cnblogs.com/du1269038969/p/9652955.html

浏览器伪装技术爬取csdn伪装技术

爬虫的浏览器伪装技术（019）

爬虫的浏览器伪装技术

爬虫--浏览器伪装技术（urllib）

Python爬虫：Fiddler的使用和浏览器伪装技术

爬虫笔记（十二）——浏览器伪装技术

爬虫的浏览器伪装技术代码实例

爬虫基础-----爬虫的浏览器伪装技术

浏览器伪装

用python2和python3伪装浏览器爬取网页

Python爬虫+requests+伪装浏览器爬取小说入门总结

伪装浏览器身份

Python学习之爬虫05-爬虫的浏览器伪装技术实战

Python网络爬虫---爬虫的异常处理实战、浏览器伪装技术实战

[伪装浏览器报头]html爬虫伪装头

python爬虫之美剧排行榜爬取(加浏览器伪装，代理，异常处理)

Python数据爬虫学习笔记（12）爬取腾讯视频评论数据（Fiddler抓包+浏览器伪装）

Requests爬虫之伪装浏览器

python学习，浏览器伪装

python爬虫伪装浏览器

Python网络爬虫:伪装浏览器

使用Urllib(2)--浏览器伪装

python网络爬虫--浏览器伪装

Python网络爬虫：自动模拟HTTP请求&爬虫的异常处理&爬虫浏览器伪装技术&新闻爬虫实战

python爬虫.2.伪装浏览器

Nodejs使用Chrome伪装微信浏览器UA

Python爬虫3-----浏览器伪装

用户代理列表--爬虫伪装浏览器访问用

Python爬虫伪装浏览器，初步提取信息！

fake-useragent库：伪装浏览器Header

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)