Python 爬虫入门笔记1(for myself)

一、requests入门
1. requests的基本内容

request()构造一个请求,支撑一下各个方法的基础方法
requests.request(method,url,**kwargs) 七种方法
method: 请求方式
requests.request(‘GET’,url,**kwargs)
**kwargs: 控制访问的参数,均为可选项
令kv = {‘key’:’value’}
params : 字典或字节序列,作为参数增加到url中
r = requests.request(‘GET’,’http://python123.io/ws‘, params=kv) #以命名方式把kv赋予params
print(r.url)

json :JSON格式的数据,作为request的内容
header:字典,HTTP协议头
hd = {‘user-agent’: ‘Chrome/10’}
 r = requests.request(”POST”,url, header=hd)

get() 获取HTML网页的主要方法,对应HTTP的GET:请求获取URL位置的资源
head()获取网页头信息的方法,对应HEAD :请求获取URL位置资源的响应消息报告,即可获得该资源的头部信息
post()向网页提交POST请求的方法,对应POST:请求向URL位置的资源后附加新的数据
put()向网页提交PUT请求的方法,PUT:请求向URL位置存储一个资源,覆盖原URL位置的资源
patch()向网页提交局部修改请求,PATCH:请求局部更新URL位置的资源,改变该资源处的部分内容
delete()向HTML网页提交删除命令,DELETE:请求删除URL位置存储的资源
PATCH与PUT
PATCH 只修改一个字段,PUT反之
HTTP协议
URL格式 http://host[:port][path]
host: 合法的Internet主机域名或IP地址
port:端口号,缺省端口为80
path:请求资源路径
Requests库的2个重要对象
r = requests.get(url)
Request
Response :包含爬虫返回的内容
Response 对象属性
r.status_code HTTP请求的返回状态,200表示连接成功,404则失败
r.text HTTP响应内容的字符串形式,即url对应的页面内容
r.encoding 从HTTP header中猜测的响应内容编码方式(header中不存在charset,则默认编码ISO-8859-1)
r.apparent_encoding 从内容中分析出响应内容编码方式(备选编码方式):根据网页内容分析出的编码方式
r.content HTTP响应内容的二进制形式

猜你喜欢

转载自blog.csdn.net/qq_42899028/article/details/81610371