1. 爬虫- requests库基本使用

本文中使用jupyter notebook工具进行的。安装requests库使用命令pip install requests。

引入实例

15392593-47d210f61a256a05.png
15392593-31642d702dff5df5.png
各种请求方式

GET请求:

15392593-dfcb708aa6461314.png
基本写法

带参数Get请求

15392593-8e43deae47235e9c.png
拼接传参
15392593-4a7114047ca83e97.png
字典形式传参

解析json

15392593-7aee20c80accbc97.png

获取二进制数据并保存

15392593-9ac1389589f733a7.png

查看当前文件,会看到刚才保存的文件,favicon.ico。我的分类比较乱,请忽略

15392593-4c07962632a7144f.png

点击查看,就是刚才我们请求地址中显示的图片。

15392593-3dfa9852d0bca21c.png

添加headers:

15392593-8c6a3722684915e0.png
知乎页面爬取

如果不知道User-Agent在哪,请按照图中的提示查询。

15392593-e4cb17adeec6473c.png

Post请求:

基本post请求

15392593-26832136a23bc5b8.png

添加headers:

15392593-039500524948b966.png

响应:

response属性

15392593-516d674929832a7b.png

状态码

response.status_code=200时,代表请求返回正常,还有很多其他的,遇到时再百度吧。

高级操作:

文件上传

15392593-370662b0c0a60444.png

获取cookie:

15392593-8cf28f71cf371160.png

会话维持

15392593-93374bb961aaec60.png
模拟登陆

证书验证

15392593-de69d5e7a373de09.png
不验证证书

或者指定证书,但是我本地没有证书,稍后会百度怎么弄证书,弄明白了 再把这补充一下。

15392593-993b3cc252aedd2d.png

代理设置

15392593-10a3b870ec9ce905.png

如果代理有用户名和密码

15392593-6377f9efd404b93f.png

socket代理

15392593-17cb2cf3688f1a99.png

超时设置

我将请求设置成0.1秒超时时间。

15392593-9dad568bd2a60502.png

异常处理

异常不做处理,会使工程中断,所以为了安全起见,我们要加上 try except

15392593-552066c4a62bcbb3.png

认证设置

有些网址登陆是需要认证的

15392593-10044fad43c71471.png

结束,接着下一篇2.爬虫-正则表达式,加油吧!

猜你喜欢

转载自blog.csdn.net/weixin_34150503/article/details/87046655