网络爬虫(一):requests的基本使用

在学习爬虫的过程中总结一些经验

1.发送请求
第一步:导入request模板

import requests

然后就可以获取一个网页

req = requests.get(url)

get是获取HTML网页的主要方法,对应于HTTP的GET,request模板除了get之外还有很多其他的应用。
譬如说:

req = requests.post(url)
req = requests.put(url)
req = requests.delete(url)
req = requests.head(url)
req = requests.options(url)

2.获取信息
(一)可以通过req.text来获取所爬网站的内容:

import requests
req = requests.get(url)
r=req.text
print(r)

(二)可以使用r.encoding来获取网页编码:

import requests
req=requests.get(url)
r=req.encoding

这样就可以得到该网址的网页编码
(三)req.status_code可以直接获得该网页的状态码。
输出结果为200 该网页可以正常打开,不能正常打开为404

(四)req.headers可以获得响应头内容。
注意:是以字典的形式返回内容

猜你喜欢

转载自blog.csdn.net/qq_42785117/article/details/82465796