Python问题-requests库爬虫报403 - 代码天地

Python问题-requests库爬虫报403

其他 2018-06-19 16:11:56 阅读次数: 2

一：一般的requests库

def gethtmltext(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:

之前爬爬taobao.com都是管用的，但这次就异常了。

把 r 输出，报【403】，也就是说服务器拒绝访问了。

也就是说服务器不允许一些客服端的访问，毕竟他们的robots协议也是这么说的：

这种情况下，应该让爬虫模拟成一个浏览器的方式访问就不会被发现啦。

二：增加headers，模拟浏览器访问

即：

def getHtmlList(url):
try:
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/51.0.2704.63 Safari/537.36'}
r = requests.get(url, headers = headers, timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:

解决了。

**因为上周末医院的不爽之旅，第一次体会到医生与患者间高度信息不对等，也开始理解总会爆发的医患关系。

当然我还是尊重医生的，只是觉的后面跟医生交流时，应该增加自己对病理的了解，提高与医生交流时信息平等。**

**爬虫小白准备自己写一段爬取在线医疗咨询平台患者咨询案例，用于辅助对病理的理解。**

猜你喜欢

转载自blog.csdn.net/zenobia119/article/details/79811770

Python问题-requests库爬虫报403

Python爬虫-Requests库

Python爬虫------requests库

Python爬虫 --requests库

Python爬虫——Requests库

python爬虫 - requests库

python requests爬虫返回403错误？加了所有特征的请求头+代理也解决不了的问题处理

python爬虫之requests库

python爬虫入门——requests库

PYTHON爬虫（requests库详解）

python爬虫---requests库的用法

python爬虫系列——requests库

Python爬虫requests请求库

python爬虫入门【requests库】

python爬虫库详解-requests

python爬虫的requests库详解

Python爬虫之-Requests库

Python爬虫基础—requests库

python爬虫--01 requests库

Python爬虫 requests库基础

Python爬虫速成------Requests库

python爬虫1——Requests库

SpringSecurity 验证报403 问题

Python爬虫【二】请求库requests

python爬虫之路（一）-----requests库详解

Python爬虫之requests库入门

Python爬虫学习1：requests库

Python爬虫---requests库快速上手

python爬虫Requests库：学习心得

python 爬虫_Requests库详细用法

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)