爬虫的概念和基本流程基本了解（一） - 代码天地

爬虫的概念和基本流程基本了解（一）

其他 2020-04-18 18:32:49 阅读次数: 0

爬虫的概念

网络爬虫（又称网页蜘蛛，网络机器人）就是模拟客户端(主要是指浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动的抓取互联网信息的程序。

原则上，只要是客户端(浏览器)能做的事，爬虫都能做
爬虫也只能获取客户端(浏览器)所展示出来的数据

爬虫的作用

数据采集
- 抓取微博评论(机器学习舆情监控)
- 抓取招聘网站的招聘信息(数据分析、挖掘)
- 新浪滚动新闻
- 百度新闻网站
软件测试
- 爬虫之自动化测试
- 虫师
12306抢票
网站上的投票
- 投票网
网络安全
- 短信轰炸
  - 注册页面1
  - 注册页面2
  - 注册页面3
- web漏洞扫描

爬虫的分类

根据被爬取网站的数量不同，可以分为：

通用爬虫，如搜索引擎
聚焦爬虫，如12306抢票

根据是否以获取数据为目的，可以分为：

功能性爬虫，给你喜欢的人投票、点赞
数据增量爬虫，比如招聘信息

根据url地址和对应的页面内容是否改变，数据增量爬虫可以分为：

基于url地址变化，内容也随之变化的数据增量爬虫
url地址不变，内容变化的数据增量爬虫

爬虫分类

通用爬虫
聚焦爬虫
- 功能性爬虫
- 数据增量爬虫
  - url和数据同时变化
  - url不变，数据变化

爬虫的流程

在这里插入图片描述

1.获取一个url
2.向url发送请求，并获取响应（需要http协议）
3.如果从响应中提取url，则继续发送请求获取响应
4.如果从响应中提取数据，则将数据进行保存

发布了104 篇原创文章 · 获赞 33 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/WangTaoTao_/article/details/105475668

爬虫的概念和基本流程基本了解（一）

爬虫的概念和基本流程基本了解（二）

01_爬虫的基本概念和流程

爬虫一、爬虫基本概念、基本请求方式和基本库

一、爬虫基本概念

爬虫（一） -- 带你了解爬虫最基本概念，一文即可实践

爬虫的基本分类和爬虫的流程

【Python爬虫系列教程 2- 100】了解HTTP基本原理和爬虫的基本流程

JDBC学习笔记(一)——概念和基本操作流程

数据挖掘一些基本概念和流程

Servlet基本概念和流程

SpringMVC基本概念和执行流程

Spring基本概念和创建流程

ARIMA基本概念和流程讲解

爬虫---基本概念

scrapy爬虫教程摘要（一）——基本流程

爬虫的基本流程

python爬虫的基本流程

爬虫基本流程

Python爬虫基本流程

入坑爬虫(一)爬虫的基本概念

Es学习第一课，了解基本功能和概念

Vue学习计划一：了解Vue的基本概念和用法

了解Spring的基本概念

“造地基”的C++ （一）C++基本概念和基本语法以及算法的流程控制

OAuth2.0系列之基本概念和运作流程（一）

1 爬虫基本概念

测试人员应该了解的一些基本概念

了解一下Elasticsearch的基本概念

DotNetty系列一：基本了解和介绍

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)