python网络爬虫入门概论

1.1 功能:

可以自动化浏览网络中的信息,当然这些浏览需要按照我们制定的规则进行,这些规则称为网络爬虫算法。

1.2 基于:

使用python可以方便地编写出爬虫程序,进行互联网信息的自动化检索。

1.3 实现过程:

搜索引擎离不开爬虫,比如百度搜索引擎的爬虫叫做百度蜘蛛
。百度蜘蛛每天在海量的互联网信息中进行爬取,爬取优质信息并收录。
当用户在百度搜索引擎上检索对应关键词时,百度将对关键词进行分析处理。
那么如何覆盖互联网中更多的优质网页?如何筛选页面?这些都由百度爬虫蜘蛛的算法决定。
采用不同的算法,爬虫的运行效率会不同,爬取结构也会有所差异。
所以我们在研究爬虫时,不仅要了解爬虫如何实现,还需要知道一些常见爬虫算法,如果有必要,还需要自己去制定相应的算法。

1.4 学习爬虫的原因

  1. 可以私人订制一个搜索引擎。
  2. 大数据时代下的数据源分析—数据源的寻找。
  3. 对于SEO从业者来说,可以更加深层次的理解搜索引擎爬虫的工作原理,从而更好地进行搜索引擎优化。

2.1 网络爬虫的组成:控制节点、爬虫节点、资源库。

2.2 分类:

通用网络爬虫(目标资源在全互联网中,目标数据巨大,因此对性能要求很高;采取一定的爬行策略,主要有深度优先爬行策略和广度优先爬行策略)
主要应用在大型搜索引擎。
聚焦网络爬虫:(也叫主题网络爬虫,不像通用网络爬虫将目标定位在全互联网,而是定位在与主题相关的页面中。可以大大节省带宽以及服务器资源)
主要用在对特定信息的爬取中,为某一类特定的人群提供服务。
主要由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块、内容评价模块(评价内容的重要性)、链接评价模块(同理链接重要性,由以上可以确定哪些页面优先访问)等构成。
策略主要有4种:基于内容/链接评价的爬行策略、基于增强学习/语境图的爬行策略。
增量式网络爬虫:对应着增量式更新→指在更新时只更新改变的地方,所以在爬取中只爬取内容发生变化的网页或新产生的网页,对于未发生内容改变的网页,则不会爬取。
也就是在一定程度上保证所爬取的页面尽可能是新页面。
深层网络爬虫
首先了解深层页面的概念:在互联网中网页按存在方式分类,分为表层页面和深层页面,所谓表层页面指不需要提交表单,使用静态的链接就能够到达的静态页面;而深层页面则隐藏在表单后面,是需要提交一定的关键词才能够获取到的页面。在互联网中,深层页面的数量往往比表层页面的数量要多很多。
爬取深层页面,需要想办法自动填写好对应表单,所以,深层网络爬虫最重要的部分即为表单填写部分(填写有两种类型)。
以上等等..在实际中多是这几类爬虫的组合体。

2.3 技能总览:

自动去网页广告、爬取多站新闻集中阅读、爬取金融信息进行投资分析等…..
总之,一定程度上代替手工访问网页。

2.4爬虫与搜索引擎的关系是密不可分的,以下对搜索引擎的核心技术进行一个简单的讲解:

2.5用户爬虫:

是网络爬虫的其中一种。是专门用来爬取用户数据的。相对来说是比较敏感的信息,所以用户爬虫的利用价值也相对较高。

3.1核心技术篇

猜你喜欢

转载自blog.csdn.net/quest_sec/article/details/79600544