Python爬虫速成------Requests库

Requests库

Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。

警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。

看吧,这就是 Requests 的威力:

>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code
200
>>> r.headers['content-type']
'application/json; charset=utf8'
>>> r.encoding
'utf-8'
>>> r.text
u'{"type":"User"...'
>>> r.json()
{u'private_gists': 419, u'total_private_repos': 77, ...}

以上这句话摘自Requests库的官方文档

import requests
r = requests.get('http://www.baidu.com')
print('状态码:', r.status_code)
# 更改字符编码
r.encoding = 'utf-8'
print('显示文本:\n' + r.text)

主要方法

requests.get(url)返回Response类型对象

对象属性

r.apparent_encoding根据网页内容分析出来的编码方式

HTTP对资源的操作

假设URL位置有一组数据UserInfo,包括UserID、UserName等20个字段

需求:用户修改了UserName,其他不变

  • 采用PATCH,仅向URL提交UserName的局部更新请求
  • 采用PUT,必须将所有20个字段一并提交到URL,未提交字段被删除
    PATCH的最主要好处:节省网络带宽

通过 https://www.jd.com/robots.txt 访问京东的Robots协议

User-agent: * 
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

robots协议一定要放在网站的根目录下,基本格式:

User-agent: * 
Disallow: /

*代表所有,/代表根目录

推荐课程《Python网络爬虫与信息提取 》

猜你喜欢

转载自blog.csdn.net/qq_42907802/article/details/106536262