《想学Python必看系列》从头开始全面的了解Python网络爬虫 - 代码天地

《想学Python必看系列》从头开始全面的了解Python网络爬虫

其他 2021-03-31 15:53:52 阅读次数: 0

爬虫概述

知识点：

了解爬虫的概念
了解爬虫的作用
了解爬虫的分类
掌握爬虫的流程

1. 爬虫的概念

模拟浏览器，发送请求，获取响应

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端(主要指浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

原则上,只要是客户端(浏览器)能做的事情，爬虫都能够做
爬虫也只能获取客户端(浏览器)所展示出来的数据

知识点：了解爬虫的概念

2. 爬虫的作用

爬虫在互联网世界中有很多的作用，比如：

数据采集
1. 抓取微博评论(机器学习舆情监控)
2. 抓取招聘网站的招聘信息(数据分析、挖掘)
3. 新浪滚动新闻
4. 百度新闻网站
软件测试
1. 爬虫之自动化测试
2. 虫师
12306抢票
网站上的投票
1. 投票网
网络安全
1. 短信轰炸
2. web漏洞扫描

知识点：了解爬虫的作用

3. 爬虫的分类

3.1 根据被爬取网站的数量不同，可以分为：

通用爬虫，如搜索引擎
聚焦爬虫，如12306抢票，或专门抓取某一个（某一类）网站数据

3.2 根据是否以获取数据为目的，可以分为：

功能性爬虫，给你喜欢的明星投票、点赞
数据增量爬虫，比如招聘信息

3.3 根据url地址和对应的页面内容是否改变，数据增量爬虫可以分为：

基于url地址变化、内容也随之变化的数据增量爬虫
url地址不变、内容变化的数据增量爬虫

知识点：了解爬虫的分类

4. 爬虫的流程

爬虫的基本流程如图所示

获取一个url
向url发送请求，并获取响应（需要http协议）
如果从响应中提取url，则继续发送请求获取响应
如果从响应中提取数据，则将数据进行保存

知识点：掌握爬虫的流程

猜你喜欢

转载自blog.csdn.net/weixin_45293202/article/details/113527535

《想学Python必看系列》从头开始全面的了解Python网络爬虫

Python中从头开始实现神经网络 - 介绍

python(从放弃到从头开始)

用Python从头开始实现一个神经网络

WIDML翻译：用Python从头开始实现神经网络 - 简介

用 Python 从头开始实现一个全连接的神经网络

带你全面了解Flutter，Flutter 到底该怎么学？真的要从头开始么？

Python之从头开始建立项目流程

使用Python从头开始实现基线机器学习算法

（安全之路）从头开始学python编程

（五）如何用 Python 从头开始实现 Bagging 算法

《想学Python爬虫必看系列验证码处理》打码平台的使用

《想学Python爬虫必看系列》常见的反爬手段和解决思路

redis从头开始【一】--面试的小伙伴必看

从头开始

git 从头开始

又从头开始

从头开始JAVA

C++ 转 Python 记录, 从头开始全部开始全部捋一遍!

【从头开始学Spring】了解Spring的机制

使用 Python 从头开始构建知识图了解如何创建知识图、分析知识图并训练嵌入模型(教程含源码)

[SQL系列] 从头开始学PostgreSQL 分库分表

（六）如何利用Python从头开始实现随机森林算法

【Python】从0到1：从头开始写打砖块小游戏~（一）

【Python】从0到1：从头开始写打砖块小游戏~（四）

【Python】从0到1：从头开始写打砖块小游戏~（三）

【Python】从0到1：从头开始写打砖块小游戏~（二）

使用Python中从头开始构建决策树算法

从头开始实现神经网络：入门

简单介绍一下如何从头开始实现一个神经网络，使用Python语言实现。

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)