Python爬虫的整体流程

对于爬虫小白来说,很多人都感觉不知道怎么开始学习。从网上查来查去,找到的多是部分的代码,但很少有从整体上阐述爬虫的流程的,因此导致了很多人对于爬虫的难以理解和无从下手。接下来就介绍一下爬虫的整体流程。

爬虫整体上可以分为三个步骤:


第一步:获取网页

获取网页就是向一个网址发送request,然后网址返回网页的数据。

获取网页我们可以用selenium来模拟浏览器。


第二步:解析网页

解析网页,通俗的来讲就是要如何得到我们所需要的数据。我们在第一步获取网页所得到的是整个网页的数据,但是我们往往只是需要其中的一部分,因此我们需要提取我们所需要的数据。

提取数据我们可以使用正则表达式,但是相对有点复杂;也可以使用BeautifulSoup。


第三步:数据存储

数据存储,显而易见就是要把数据存储下来。在第二步我们已经把我们所需要的数据从整个网页中提取出来,但是我们要把我们所需要的这些数据放在哪里呢?

通常我们可以把数据存储在txt文本中,也可以存储在数据库中。如果存储在数据库中,可以考虑使用MongoDB这个强大的数据库。

猜你喜欢

转载自blog.csdn.net/zchongguang/article/details/85924339
今日推荐