Python爬虫的整体流程 - 代码天地

Python爬虫的整体流程

编程语言 2019-01-06 16:35:02 阅读次数: 0

对于爬虫小白来说，很多人都感觉不知道怎么开始学习。从网上查来查去，找到的多是部分的代码，但很少有从整体上阐述爬虫的流程的，因此导致了很多人对于爬虫的难以理解和无从下手。接下来就介绍一下爬虫的整体流程。

爬虫整体上可以分为三个步骤：

第一步：获取网页

获取网页就是向一个网址发送request，然后网址返回网页的数据。

获取网页我们可以用selenium来模拟浏览器。

第二步：解析网页

解析网页，通俗的来讲就是要如何得到我们所需要的数据。我们在第一步获取网页所得到的是整个网页的数据，但是我们往往只是需要其中的一部分，因此我们需要提取我们所需要的数据。

提取数据我们可以使用正则表达式，但是相对有点复杂；也可以使用BeautifulSoup。

第三步：数据存储

数据存储，显而易见就是要把数据存储下来。在第二步我们已经把我们所需要的数据从整个网页中提取出来，但是我们要把我们所需要的这些数据放在哪里呢？

通常我们可以把数据存储在txt文本中，也可以存储在数据库中。如果存储在数据库中，可以考虑使用MongoDB这个强大的数据库。

猜你喜欢

转载自blog.csdn.net/zchongguang/article/details/85924339

Python爬虫的整体流程

python 调用 R包整体流程

python爬虫的基本流程

Python爬虫流程

Python爬虫基本流程

[Python自学] 爬虫（2）爬虫基础流程

Python爬虫工作基本流程

Spring MVC 整体的流程

memcached学习的整体流程

SpringMVC 整体流程

NLP整体流程的代码

前端开发整体流程

vue框架整体流程

整体流程·（图片）

MapReduce整体流程简述

JVM 整体流程介绍

mybatis整体流程

出票整体流程

用户画像整体流程

秒杀系统——整体流程

前端整体流程

nmap整体流程1

论Kafka的整体流程

面试整体流程

java面试①整体流程

mysql整体执行流程

Redlock实现整体流程；

SpringSecurity整体流程

项目整体流程总结

Android整体启动流程

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)