python爬虫工程师 成长之路一 初识爬虫

爬虫简介

  • 爬虫,就是网络爬虫,也称为网页蜘蛛、网络机器人、网络蚂蚁等,可以根据我们制定的规则自动的浏览互联网中的信息。
  • 搜索引擎,就是爬虫的应用者,百度搜索引擎叫baiduspider,360的叫360spider…

为什么要学习爬虫

  • 大数据时代,要进行数据分析,就需要数据源,而爬虫刚刚可以获取很多的数据源
  • 熟练掌握爬虫技术十分有利于就业

爬虫的结构

爬虫主要由控制节点、爬虫节点、资源库组成。

  • 控制节点:也称为爬虫的中央控制器,主要负责根据URL地址分配线程,并调用爬虫节点进行爬虫
  • 爬虫节点:爬虫节点根据对应的算法,对网页进行爬取,爬取完毕后,将对应的结果存储到对应的资源库中
  • 资源库:爬虫节点存储爬取结果的地方

控制节点和爬虫节点的关系

爬虫的类型

按照爬虫实现的技术和结构可以分为通用爬虫、聚焦爬虫、增量式爬虫、深层爬虫等类型;在实际运用中,常是这几类的结合体

名称 特点
通用爬虫 又称全网爬虫;通用爬虫的目标资源全在互联网中,通用爬虫爬取的目标数据巨大,范围广泛,所以对性能要求较高。常用于大型搜索引擎,应用价值较高。
聚焦爬虫 又称主体爬虫;聚焦爬虫按照事先定义好的主题进行网页爬取,相对于通用爬虫可以节省资源。常用于特定信息的爬取,为某一类人群服务。
增量式爬虫 增量式爬虫就是随着增量式更新。增量式更新指更新的时候只更新网页的地方,未改变的不做更新;所以增量式爬虫在爬取网页时只爬取新出现的网页;一定程度上保证了所爬取的网页是更新之后的。
深层爬虫 可以爬取互联网中的深层页面。在互联网中,深层页面的数量比静态页面的数量多得多。深层爬虫是最重要的部分是表单填写,所以i深层爬虫需要想办法自动填写好表单。

  • 深层页面:在互联网中,网页可以分为表成页面和深层页面。表成页面就是不需要提交表单,直接使用静态的链接就能到达的页面;深层页面指的是不能直接通过静态链接获取,而是需要提交关键词之后才能够获取到的页面

聚焦爬虫的工作原理和过程

因为聚焦爬虫可以节省资源,实用性较其他爬虫更高,所以我们将对聚焦爬虫进行详细讲解。
原理

  • 聚焦爬虫有一个控制中心,其负责对整个爬虫系统进行管理和监控,主要包括控制用户交互、初始化爬行器、确定主题、协调各模块之间的工作等。

简单工作过程

  1. 将初始的URL集合传递给URL队列,页面爬模块从URL队列中读取第一批URL列表。
  2. 根据读取的URL列表地址从互联网中进行相应的爬取,爬取完毕后将结果传到页面数据库中进行存储。
    实际上要复杂一些,在这里就先讲简单过程帮助理解。

实际工作过程
在这里插入图片描述

爬虫常用功能

  • 爬取金融信息进行分析预测等
  • 爬取图片,影片等
  • 爬取信息做成搜素引擎
  • 去除网页广告
  • 爬取感兴趣的信息

搜索引擎介绍

  • 搜索引擎会利用爬虫模块爬取互联网中的网页,将爬取到的网页存储在原始数据库中,
  • 爬虫模块主要包括控制器和爬行器,控制器主要进行爬行的控制,爬行器负责具体的爬行,然后对原始数据库中的数据进行索引,并存储到索引数据库中
  • 当用户检索信息时,通过用户交互接口(搜素引擎输入框)输入需查询信息,输入完毕后有检索器进行分词等操作,检索器会从索引数据库中获取数据进行相应的检索处理
  • 用户输入信息的同时,会将用户的行为信息存储到用户日志数据库中,如用户的IP、用户输入的关键词等
  • 用户日志数据库中的数据会传到日志分析器进行处理,日子分析器会根据大量的用户数据去调整原始数据库和索引数据库。
    在这里插入图片描述

用户爬虫

所谓用户爬虫就是专门爬虫互联网中用户数据的一种爬虫。
爬取用户信息可以分析出很多有价值的东西,如爬取淘宝的用户信息,可以分析出该用户的喜好,该用户的大概收入,年龄阶段等等

发布了85 篇原创文章 · 获赞 158 · 访问量 6万+

猜你喜欢

转载自blog.csdn.net/Late_whale/article/details/104263958