python爬虫.2.伪装浏览器

其他 2018-04-22 14:51:24 阅读次数: 4

有的网页在爬取时候会报错返回

urllib.error.HTTPError: HTTP Error 403: Forbidden

这是网址在检测连接对象，所以需要伪装浏览器，设置User Agent

在浏览器打开网页 ---> F12 ---> Network ---> 刷新

然后选择一项就是在 header 看到 User-Agent

User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36

import urllib.request                   #url包

def openUrl(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',
        'Host': 'jandan.net'
    }
    req = urllib.request.Request(url, headers=headers)
    response = urllib.request.urlopen(req)      #请求
    html = response.read()                      #获取
    html = html.decode("utf-8")                 #解码
    print(html)                                 #打印
    
if __name__ == "__main__":
    url = "http://jandan.net/ooxx/" #'http://www.douban.com/'
    openUrl(url)

猜你喜欢

转载自www.cnblogs.com/protogenoi/p/8881163.html

python爬虫.2.伪装浏览器

python爬虫伪装浏览器

Python网络爬虫:伪装浏览器

python网络爬虫--浏览器伪装

Python爬虫3-----浏览器伪装

Python爬虫：Fiddler的使用和浏览器伪装技术

Python爬虫伪装浏览器，初步提取信息！

python学习笔记之（爬虫浏览器伪装）（四）

爬虫的浏览器伪装技术（019）

Requests爬虫之伪装浏览器

爬虫的浏览器伪装技术

爬虫--浏览器伪装技术（urllib）

[伪装浏览器报头]html爬虫伪装头

使用Urllib(2)--浏览器伪装

python学习，浏览器伪装

浏览器伪装

Python学习之爬虫05-爬虫的浏览器伪装技术实战

Python网络爬虫---爬虫的异常处理实战、浏览器伪装技术实战

爬虫基础-----爬虫的浏览器伪装技术

Python网络爬虫：自动模拟HTTP请求&爬虫的异常处理&爬虫浏览器伪装技术&新闻爬虫实战

python爬虫隐藏自身的ip并伪装成浏览器

Python数据挖掘学习笔记（8）爬虫异常处理与浏览器伪装

Python实现爬虫设置代理IP和伪装成浏览器的方法分享

Python爬虫+requests+伪装浏览器爬取小说入门总结

python—爬虫伪装成浏览器的三种方法

爬虫笔记（十二）——浏览器伪装技术

爬虫的浏览器伪装技术代码实例

用户代理列表--爬虫伪装浏览器访问用

爬虫02-简单伪装浏览器

用python2和python3伪装浏览器爬取网页

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)