从入门到放弃-python爬虫系列:爬虫简介

什么是爬虫?

在这里插入图片描述

1. 什么是爬虫?

我们可以把网络比作一个蜘蛛网,每个网页都是这张大网上的节点,而爬虫就是这个大网上的蜘蛛。爬虫可以根据这些节点爬取网络上的想要的数据。从另一方面来说,爬虫就是个用于获取网页、提取数据和保存数据的自动化程序。有人说自己手动也可以提取,但如果想要获取大量的数据就会消耗巨大的人力资源,这时,爬虫的优势就体现出来了,它可以极短时间内获取大量想要的数据,同时还具备容错机制,使数据高效准确的爬取。

2. 爬虫的工作原理

爬虫的爬取过程主要分为3个步骤:获取网页、解析并提取数据、保存数据。详细介绍如下:
1. 获取网页
所谓获取网页就是模拟浏览器获取网页的源代码。我们想要的数据基本都在里面,所以只要获取了网页的源代码,就可以对其进行下一步的操作了。这里主要用到的库主要是urllibrequests
2. 提取数据
获得源代码后我们就应该分析数据、处理数据,从而使其变得井井有条,方便我们对齐进行数据提取。这里主要用到有正则表达式,此外还有许多库供我们使用,后面会一一详细介绍。
3. 保存数据
提取获得我们想要的数据后,就需要我们将其存放起来,方便数据的使用。保存格式有多种,如txt,表格,数据库等等。

从今天起,不定期发布有关爬虫的文章,内容略有不足,还请各位大牛多多指教,见谅!

猜你喜欢

转载自blog.csdn.net/qq_45807032/article/details/106102595