Python 爬虫入门笔记1(for myself)

一、requests入门
1. requests的基本内容

request()构造一个请求，支撑一下各个方法的基础方法
requests.request(method,url,**kwargs) 七种方法
method: 请求方式
requests.request(‘GET’,url,**kwargs)
**kwargs: 控制访问的参数，均为可选项
令kv = {‘key’:’value’}
params : 字典或字节序列，作为参数增加到url中
r = requests.request(‘GET’,’http://python123.io/ws‘, params=kv) #以命名方式把kv赋予params
print(r.url)

json :JSON格式的数据，作为request的内容
header:字典，ＨＴＴＰ协议头
hd = {‘user-agent’: ‘Chrome/10’}
　r = requests.request（”POST”,url, header=hd）

get() 获取HTML网页的主要方法，对应HTTP的GET：请求获取URL位置的资源
head()获取网页头信息的方法，对应HEAD ：请求获取URL位置资源的响应消息报告，即可获得该资源的头部信息
post()向网页提交POST请求的方法，对应POST：请求向URL位置的资源后附加新的数据
put()向网页提交PUT请求的方法，PUT：请求向URL位置存储一个资源，覆盖原URL位置的资源
patch()向网页提交局部修改请求，PATCH：请求局部更新URL位置的资源，改变该资源处的部分内容
delete()向HTML网页提交删除命令，DELETE：请求删除URL位置存储的资源
PATCH与PUT
PATCH 只修改一个字段，PUT反之
HTTP协议
URL格式 http://host[:port][path]
host: 合法的Internet主机域名或IP地址
port：端口号，缺省端口为80
path：请求资源路径
Requests库的2个重要对象
r = requests.get(url)
Request
Response :包含爬虫返回的内容
Response 对象属性
r.status_code HTTP请求的返回状态，200表示连接成功，404则失败
r.text HTTP响应内容的字符串形式，即url对应的页面内容
r.encoding 从HTTP header中猜测的响应内容编码方式(header中不存在charset，则默认编码ISO-8859-1)
r.apparent_encoding 从内容中分析出响应内容编码方式（备选编码方式）：根据网页内容分析出的编码方式
r.content HTTP响应内容的二进制形式

Python 爬虫入门笔记1(for myself)

猜你喜欢