自学Python爬虫（一）认识爬虫 - 代码天地

自学Python爬虫（一）认识爬虫

其他 2018-11-06 06:05:34 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_38736612/article/details/81412511

1、爬虫的概念

这里就不解析了，可自行百度抛链接：
https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin

2、爬虫的基本流程

2.1发起请求
通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。
2.2获取响应内容
如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能有HTML、JSON字符串、二进制数据（如图片视频）等类型。
2.3解析内容
得到的内容可能是HTML，可以用正则表达式、网页解析库进行解析，可能是Json，可以直接转为Json对象解析，可能是二进制文件，可以做保存或进一步的处理。
2.4保存数据
保存形式多样，可以保存为文本，也可以保存至数据库，或者保存为特定格式的文件。

3、Request

3.1请求方式
主要有GET、POST两种类型，另外还有HEAD、PUT、DELETE、OPTIONS等。
3.2请求URL
URL全称统一资源定位符，如一个网页文档、一张图片、一个视频等都可以用URL来唯一确定。
3.3请求头
包含请求时的头部信息，如User-Agent、Host、Cookies等信息。
3.4请求体
请求时额外携带的数据，如表单提交时的表单数据。

4、Response

4.1响应状态
有多种响应状态，如200代表成功，301代表跳转、404找不到页面、502服务器错误。
4.2响应头
如内容类型、内容长度、服务器信息、设置Cookie等等。
4.3响应体
最主要的部分，包含了请求资源的内容、如网页HTML、图片、二进制数据等。

5、解析方式

5.1直接处理
5.2Json解析
5.3正则表达式
5.4BeautifulSoup
5.5PyQuery
5.6XPath
**********************************我是华丽的分割线**********************************
接下来知识点部分将全部以代码的形式进行讲解，重点内容基本上都会在注释里，具体实战项目中的问题会在博客里讲到，但更详细的内容在源码注释里！

猜你喜欢

转载自blog.csdn.net/qq_38736612/article/details/81412511

自学Python爬虫（一）认识爬虫

一、Python爬虫-认识爬虫

python爬虫从入门到放弃（一）- 认识爬虫

Python，小白自学爬虫

自学python的爬虫的过程

[Python自学] 爬虫（1）

简单认识Python爬虫

Python爬虫--认识Fiddler

自学爬虫（一）

一：对爬虫的简单认识

[Python自学] 爬虫（2）爬虫基础流程

Python爬虫从基础到入门：认识爬虫

我的python爬虫自学之路

[Python自学] 爬虫（5）selenium

02-认识python爬虫

Python：带你认识爬虫

Scrapy爬虫自学笔记（一）

python爬虫自学第一天，全新的开始！

python 爬虫的第一天（认识 requests 库）

认识爬虫

爬虫 - 认识爬虫

爬虫-认识爬虫

（自学一）初步认识python

Python爬虫（一）爬虫的原理

Python爬虫（一）什么是爬虫？

python爬虫：初始爬虫一

Python爬虫（一）：爬虫伪装

Python 爬虫（一）：爬虫伪装

Python爬虫自学进行简单的文本抓取

【python爬虫自学笔记】-----Beautiful Soup 用法

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)