Python笔记：网络爬虫概述与工作原理 - 代码天地

Python笔记：网络爬虫概述与工作原理

其他 2020-01-11 09:56:19 阅读次数: 0

概述

网络爬虫(web spider) 又称为网络蜘蛛、网络机器人，是一种按一定规则，自动抓取万维网信息的程序或脚本

按系统结构和实现技术进行分类

通用网络爬虫：尽可能大的网络覆盖率，如百度，谷歌搜索
聚焦网络爬虫：有目标性，选择性访问万维网爬取信息
增量式网络爬虫：只爬取新产生或已经更新的网页信息。特点：耗费少，难度大
深层网络爬虫：通过提交一些关键字才能获取的Web页面, 如登录或注册后访问的页面

在实际应用中通常是以上几种爬虫技术的结合实现

爬虫应用场景

科学研究：在市场上通过爬虫获取大量数据，获取我们所需要的信息，进行科学研究
Web安全：通过爬虫实现漏洞检测功能
产品研发：通过获取的数据，进行分析，进行市场研究，可以更好的研发新产品
舆情监控：分析识别如微博数据中某些用户是否是水军

网络爬虫的合法性

在很多网站根路径下会有个robots.txt文档，如果没有这个文档，那么网站所有数据都可以爬取
在有次文档的网站下，需要判断是否有禁止访客获取数据
文档举例: https://www.taobao.com/robots.txt 可以查看淘宝网站里面的具体规则

网络爬虫的执行过程

①. 获取初始URL
②. 爬取存储页面内容, 并获取新的URL
③. 将新的URL放在存储队列中
④. 在存储队列中读取新的URL
⑤. 判断是否满足结束条件，如果是，则停止爬取；如果否，则回到②

单项爬取中的几个工具

通过上面可知道如何批量执行，下面说下单项的执行过程

①. 主调度器：用于控制调度整个爬取过程
②. url管理器：使用url管理器获取url
③. 下载器：下载url中的内容
④. 解析器：解析url中的数据
⑤. 数据库：对有价值的数据进行更新、入库

网络爬虫使用的技术

网络爬虫框架：scrapy
python中相关的库：urllib、urllib3、requests、mechanize、selenium、splinter
- 其中 urllib、urllib3、requests、mechanize 用来获取URL对应的原始响应内容 (高效)
- 其中 selenium、splinter 通过加载浏览器驱动, 获取浏览器渲染后的响应内容，模拟程度更高 (低效)
对于爬取的过程，主要是模拟浏览器向服务器发送构造好的http请求，常见类型有：get / post
对于数据解析方面，有相应的库：lxml, beautifulsoup4, re, pyquery等，常用方法：xpath路径表达式、css选择器 、正则表达式等
- xpath路径表达式 、 css选择器 主要用于提取结构化数据
- 正则表达式 用于提取非结构化的数据

爬虫其他相关技术：

数据抓取
- HTTP 协议、身份认证机制(Cookie)
- 网络流量分析: Chrome、Firefox,Firebug、Fiddler、Burpsuit
数据解析
- HTML结构、JSON数据格式、XML数据格式
- CSS选择器、Xpath路径表达式、正则表达式、Python编码/解码
数据入库
- 结构化数据库：MySQL、SQLite
- 非结构化数据库：Redis
其他
- 多线程、任务调度、消息队列、分布式爬虫、图像识别、反爬虫技术

发布了370 篇原创文章 · 获赞 169 · 访问量 66万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/Tyro_java/article/details/102880728

Python笔记：网络爬虫概述与工作原理

python网络爬虫学习笔记（二）：爬虫基本概述

python网络爬虫--爬虫概述

python爬虫：爬虫的工作原理

【Python】网络爬虫原理

笔记：《Python网络爬虫》

2.01_Python网络爬虫概述

Python网络爬虫原理及实践

【笔记】2、初学python3网络爬虫——爬虫的基本原理

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇四——cookie原理讲解

python网络爬虫学习笔记

Python（学习笔记—网络爬虫）

【python爬虫笔记】网络爬虫之规则

【python爬虫笔记】网络爬虫之实战

【python爬虫笔记】网络爬虫之提取

Python爬虫笔记3 |对网络爬虫的限制

SpringMVC工作原理概述

DHCP概述工作原理

【网络原理】网络概述

网络爬虫概述

《TCP/IP详解》笔记——TCP/IP基本工作原理概述

java内存工作原理学习笔记（一）：概述

NP笔记——07 BGP概述和工作原理

Python网络爬虫之-HTTP协议原理

Python学习笔记——网络概述、UDP

【爬虫学习笔记day02】1.爬虫原理与数据抓取+为什么要做网络爬虫？+网络爬虫是什么？+爬虫的更多用途+关于Python网络爬虫，我们需要学习的有什么

Python爬虫（2.网络爬虫的实现原理及技术）

01 Python 网络爬虫：爬虫技术的核心原理

初识网络爬虫-网络爬虫概述

【python】——爬虫01 概述

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)