Python爬虫速成------Requests库

Requests库

Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。

警告：非专业使用其他 HTTP 库会导致危险的副作用，包括：安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。

看吧，这就是 Requests 的威力：

>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code
200
>>> r.headers['content-type']
'application/json; charset=utf8'
>>> r.encoding
'utf-8'
>>> r.text
u'{"type":"User"...'
>>> r.json()
{u'private_gists': 419, u'total_private_repos': 77, ...}

以上这句话摘自Requests库的官方文档

import requests
r = requests.get('http://www.baidu.com')
print('状态码：', r.status_code)
# 更改字符编码
r.encoding = 'utf-8'
print('显示文本：\n' + r.text)

主要方法

requests.get(url)返回Response类型对象

对象属性

r.apparent_encoding根据网页内容分析出来的编码方式

HTTP对资源的操作

假设URL位置有一组数据UserInfo，包括UserID、UserName等20个字段

需求：用户修改了UserName，其他不变

采用PATCH，仅向URL提交UserName的局部更新请求
采用PUT，必须将所有20个字段一并提交到URL，未提交字段被删除
PATCH的最主要好处：节省网络带宽

通过 https://www.jd.com/robots.txt 访问京东的Robots协议

User-agent: * 
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

robots协议一定要放在网站的根目录下，基本格式：

User-agent: * 
Disallow: /

*代表所有，/代表根目录

推荐课程《Python网络爬虫与信息提取》

Python爬虫速成------Requests库

Requests库

猜你喜欢