Python 爬虫基础学习--网络爬虫与信息提取

Python 爬虫基础学习

Requests库的安装

Win平台: “以管理员身份运行”cmd,执行 pip install requests

Requests库的7个主要的方法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Requests库中2个重要的对象:Request和Response
Response对象包含爬虫返回的内容,也包含请求的Request信息。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Requests库的异常

Requests对网页进行访问时时时刻刻都会出现一些问题,那么出现问题就需要相关的异常处理来解决。
在这里插入图片描述
在这里插入图片描述
爬取网页的通用框架为:
在这里插入图片描述
下面介绍一下HTTP协议,以此来了解url:
HTTP协议是超文本传输协议,基于“请求与响应”模式的,无状态的应用层协议,采用URL作为定位网络资源的标识,URL的格式如下:
**http://host[:port][path]**
对于URL的理解:
URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源
在这里插入图片描述
在这里插入图片描述

Request请求

requests.request(method, url, **kwargs)

method : 请求方式,对应get/put/post等7种
url : 拟获取页面的url链接
**kwargs: 控制访问的参数,共13个

**kwargs:控制访问的参数,均为可选项
params:字典或字节序列,作为参数增加到URL中
data:字典、字节序列或文件对象,作为Request的内容
json:JSON格式的数据,作为Requet的内容
headers:字典,HTTP定制头
cookies:字典或CookieJar,Request中的cookie
auth:元组,支持HTTP认证功能
files:字典类型,传输文件
timeout:设定超时时间,秒为单位。
proxies:字典类型,设定访问代理服务器,可以增加登录认证。
allow_redirects :True或False,默认为True,重定向开关。
stream:True或False,默认为True,认证SSL证书开关
cert:本地SSL证书路径

猜你喜欢

转载自blog.csdn.net/chenbiyun940419/article/details/84828971