爬虫入门基本原理

其他 2020-04-09 18:18:04 阅读次数: 0

爬虫基本原理

爬虫定义：

请求网站并提取数据的自动化程序

爬虫基本流程：

发送请求：通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。
获取响应内容是：如果服务器能正常响应，会得到一个Response，Response的内容便是所获取的页面内让那个，类型可以是HTML，Json字符串，二进制数据（如图片视频等类型。
解析内容：得到的尽可能是HTML，可以用正则表达式，网页解析库进行解析。可能是Json，可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理。
保存数据：存为文本，也可以保存到数据库，或者指定的格式。

Request包含什么：

请求方式：GET/POST
请求URL(统一资源定位符)，一个网页文档，一张图片，一个视频
请求头：User-Agent、Host、Cookies等
请求体(POST请求时使用) -- form data，请求时额外携带的数据，如表单提交时的表单数据

Response包含：

响应状态 -- 状态码
响应头：内容类型、内容长度、服务器信息、设置cookie
响应体：请求资源的内容如网页HTML、图片、二进制数据等。

能抓什么数据：

网页文本：HTML， Json格式文本等
图片：获取到的是二进制文件，保存为图片格式
视频：同为二进制文件，保存为视频格式
其它：只要是能请求到的，都能获取

解析方式：

直接处理
json解析 -- 网页是ajax加载的
正则表达式
BeautifulSoup解析库
PyQuery解析库
XPath解析库

抓到的数据和浏览器看到的不一样：

存在javascript渲染问题，即看到的网页是经过JS渲染过的网页，而直接请求的没有经过渲染得到的

解决JavaScript渲染问题：

分析Ajax请求
Selenium / WebDriver模仿JavaScript渲染
Splash模拟JavaScript渲染
PyV8/Ghost.py

怎样保存数据

文本
关系型数据库：MySQL、Oracle、SQL Server
非关系型数据库：MongoDB、Redis等Key-Value的形式
二进制文件：图片视频音频等直接保存

猜你喜欢

转载自www.cnblogs.com/DengSchoo/p/12668573.html

爬虫入门基本原理

爬虫从入门到放弃——爬虫的基本原理

python爬虫入门一：爬虫基本原理

爬虫基本原理

爬虫的基本原理

爬虫——基本原理

爬虫----爬虫基本原理

PYTHON爬虫（爬虫的基本原理）

【爬虫】一、爬虫的基本原理

爬虫基本原理 --网络爬虫

爬虫基础-爬虫的基本原理

爬虫笔记：爬虫的基本原理

芝麻HTTP：爬虫的基本原理

网络爬虫基本原理

爬虫基本原理及概念

网络爬虫基本原理(二)

网络爬虫基本原理(一)

六、爬虫基本原理、代理

网络爬虫--基本原理(2)

爬虫基本原理详解

【01】Python爬虫：基本原理

爬虫基础之基本原理

爬虫--基本原理讲解

爬虫基本原理讲解

python爬虫基本原理

爬虫基础-HTTP基本原理

爬虫的基本原理介绍

python爬虫的基本原理

04-爬虫的基本原理

1.1 爬虫的基本原理

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)