网络爬虫相关概念简记

版权声明:欢迎分享(指明出处),若有错误还请指正!!! https://blog.csdn.net/zj19941201/article/details/79208961

网络爬虫

网络爬虫是指在互联网上自动爬取网站内容信息的程序,也称作网络蜘蛛或网络机器人。大型的网络爬虫程序被广泛应用于搜索引擎、数据挖掘等领域,个人用户或者企业也可以利用爬虫收集对自身有价值的数据。

  • 网络爬虫程序的基本执行流程可以总结为一下循环:       1.下载页面

             2.提取页面中的数据

             3.提取页面中的链接

            1 -> 2 ; 2 -> 3 ; 3 -> 1;

  1. 下载页面:一个网页的内容本质上就是一个HTML文本,爬取一个网页内容之前,首先要更根据网页的URL下载网页。
  2. 提取页面中的数据:当一个网页(HTML)下载完成之前后,对页面中的内容进行分析,并提取出我们感兴趣的数据,提取到的数据可以以多种形式保存起来,比如将数据以某种格式(CSV 、JSON)写入文件中,或存储到数据库(MySQL 、 MongoDB)中。
  3. 提取页面中的链接:通常,我们想要获取的数据并不只在一个页面中,而是分布在多个页面中,这些页面彼此联系,一个页面中可能包含一个或多个到其他页面的链接,提取完当前页面中的数据后,还要吧页面中的某些链接也提取出来,然后对链接页面进行爬取(循环步骤1-3)。

另外还需注意的是:设计爬虫程序时,还要考虑防止重复爬取相同页面(URL去重)、网页搜索策略(DFS、BFS等)、爬虫访问边界界定等一系列问题。从头开始开发一个爬虫程序是一项非常繁琐的工作,为了避免因制造轮子而消耗大量的时间,在实际应用中我么可以选择一些优秀的爬虫框架,使用框架可以降低开发成本,提高程序质量,让我们能够专注与业务逻辑(爬取有价值的数据)。

猜你喜欢

转载自blog.csdn.net/zj19941201/article/details/79208961
今日推荐