Python 爬虫基础学习--网络爬虫与信息提取 - 代码天地

Python 爬虫基础学习--网络爬虫与信息提取

编程语言 2018-12-05 18:07:25 阅读次数: 0

Python 爬虫基础学习

Requests库的安装

Win平台: “以管理员身份运行”cmd，执行 pip install requests

Requests库的7个主要的方法

在这里插入图片描述

Requests库中2个重要的对象：Request和Response
Response对象包含爬虫返回的内容，也包含请求的Request信息。

Requests库的异常

Requests对网页进行访问时时时刻刻都会出现一些问题，那么出现问题就需要相关的异常处理来解决。
在这里插入图片描述

爬取网页的通用框架为：

下面介绍一下HTTP协议，以此来了解url：
HTTP协议是超文本传输协议，基于“请求与响应”模式的，无状态的应用层协议，采用URL作为定位网络资源的标识，URL的格式如下：
**http://host[:port][path]**
对于URL的理解：
URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源
在这里插入图片描述

Request请求

requests.request(method, url, **kwargs)

method : 请求方式，对应get/put/post等7种
url : 拟获取页面的url链接
**kwargs: 控制访问的参数，共13个

**kwargs：控制访问的参数，均为可选项
params：字典或字节序列，作为参数增加到URL中
data：字典、字节序列或文件对象，作为Request的内容
json：JSON格式的数据，作为Requet的内容
headers：字典，HTTP定制头
cookies：字典或CookieJar，Request中的cookie
auth：元组，支持HTTP认证功能
files：字典类型，传输文件
timeout：设定超时时间，秒为单位。
proxies:字典类型，设定访问代理服务器，可以增加登录认证。
allow_redirects ：True或False，默认为True，重定向开关。
stream：True或False，默认为True，认证SSL证书开关
cert：本地SSL证书路径

猜你喜欢

转载自blog.csdn.net/chenbiyun940419/article/details/84828971

Python 爬虫基础学习--网络爬虫与信息提取

Python网络爬虫与信息提取（一）

Python网络爬虫与信息提取

Python网络爬虫与信息提取（2）—— 爬虫协议

python爬虫基础知识—02python网络爬虫与信息提取

Python 信息提取-爬虫

Python网络爬虫与信息提取（五）信息标记与信息提取的一般方法

Python网络爬虫与信息提取（二）**kwargs参数详解

Python网络爬虫和信息提取（一）

2018.5.4(python网络爬虫与信息提取入门)Robots协议

Python网络爬虫与信息提取_Requests库

Python网络爬虫与信息提取Day2

Python网络爬虫与信息提取Day1

python网络爬虫和信息提取(mooc)

Python网络爬虫与信息提取(实例讲解)

Python网络爬虫信息提取mooc代码实例

Python 网络爬虫与信息提取（第二周）

Python网络爬虫与信息提取（第四周）

Python 网络爬虫与信息提取（第三周）

python之网络爬虫与信息提取(上篇)

Python网络爬虫与信息提取（8）—— scrapy框架基础知识

python爬虫学习笔记4：信息提取

Python网络爬虫与信息提取学习记录（2）——关于BeautifulSoup库的用法

【学习笔记】PYTHON网络爬虫与信息提取(北理工嵩天)

第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

第三次作业-MOOC学习笔记：Python网络爬虫与信息提取

第3次作业-MOCC学习笔记：Python网络爬虫与信息提取

Python网络爬虫与信息提取（1）—— 基于pycharm的requests库学习

Python网络爬虫与信息提取(二)：网络爬虫之提取

Python爬虫中的信息提取

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)