爬虫笔记--Requests

Requests库是能够处理获取url（网址链接）中的信息的一个第三方库

一、requests安装：
Windows进入cmd命令行：pip install requests

我们可以打开IDLE来查看是否成功的安装。

没有提示错误信息表示我们已经成功地安装好了requests库

二、requests下的主要方法：
           requests.requests() 构造一个请求，支撑以下的各种方法的基础方法
           requests.get() 获取HTML网页的主要方法，对应于HTTP的GET
           requests.head() 获取HTML网页头信息的主要方法，对应于HTTP的HEAD
           requests.post() 向HTML网页提交POST请求的方法，对应于HTTP的POST
           requests.put() 向HTML网页提交PUT请求的方法，对应于HTTP的PUT
           requests.patch() 向HTML网页提交局部修改请求，对应于HTTP的PATCH （节省带宽）
           requests.delete() 向HTML网页提交删除请求，对应于HTTP的DELETE

三、Response对象的属性
           r.status_code HTTP请求的返回状态，200表示连接成功
           r.text HTTP响应内容的字符串形式，即url对应的页面内容
           r.encoding 从HTTP hader中猜测的响应内容编码方式
           r.apparent_encoding 从内容中分析出响应内容编码格式
           r.content HTTP响应内容的二进制形式

四、requests异常处理
           requests.ConnectionError 网络连接异常，如DNS查询失败、拒绝连接等
           requests.HTTPError HTTP错误异常
           requests.URLRequired URL缺失异常
           requests.TooManyRedirects 超过最大重定向次数、产生的重定向异常
           requests.ConnectTimeout 连接服务器超时异常
           requests.Timeout 请求URL超时异常

为什么要有这么多的异常处理，那是因为有些网站是不能够被访问

一般的原因有下面两种：

1、网站的搭建者或者维护者拥有较高的能力，使用一定的工具来限制你对他们网页内容进行相关的爬取

2、网页本身是具有robots协议，这里请自行百度一下robots协议的相关信息我在此就不介绍了。

对于第一种方法我们不太好解决，因为技术有限，但是如果只是因为robots协议的话我们是可以修改一定的参数来绕过robots协议的。

对requests库的介绍到此为止，希望能对大家有帮助。

猜你喜欢