python网络爬虫入门概论

1.1 功能：

可以自动化浏览网络中的信息，当然这些浏览需要按照我们制定的规则进行，这些规则称为网络爬虫算法。

1.2 基于：

使用python可以方便地编写出爬虫程序，进行互联网信息的自动化检索。

1.3 实现过程：

搜索引擎离不开爬虫，比如百度搜索引擎的爬虫叫做百度蜘蛛
。百度蜘蛛每天在海量的互联网信息中进行爬取，爬取优质信息并收录。
当用户在百度搜索引擎上检索对应关键词时，百度将对关键词进行分析处理。
那么如何覆盖互联网中更多的优质网页？如何筛选页面？这些都由百度爬虫蜘蛛的算法决定。
采用不同的算法，爬虫的运行效率会不同，爬取结构也会有所差异。
所以我们在研究爬虫时，不仅要了解爬虫如何实现，还需要知道一些常见爬虫算法，如果有必要，还需要自己去制定相应的算法。

1.4 学习爬虫的原因

可以私人订制一个搜索引擎。
大数据时代下的数据源分析—数据源的寻找。
对于SEO从业者来说，可以更加深层次的理解搜索引擎爬虫的工作原理，从而更好地进行搜索引擎优化。

2.1 网络爬虫的组成：控制节点、爬虫节点、资源库。

2.2 分类：

通用网络爬虫（目标资源在全互联网中，目标数据巨大，因此对性能要求很高；采取一定的爬行策略，主要有深度优先爬行策略和广度优先爬行策略）
主要应用在大型搜索引擎。
聚焦网络爬虫：（也叫主题网络爬虫，不像通用网络爬虫将目标定位在全互联网，而是定位在与主题相关的页面中。可以大大节省带宽以及服务器资源）
主要用在对特定信息的爬取中，为某一类特定的人群提供服务。
主要由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块、内容评价模块（评价内容的重要性）、链接评价模块（同理链接重要性，由以上可以确定哪些页面优先访问）等构成。
策略主要有4种：基于内容/链接评价的爬行策略、基于增强学习/语境图的爬行策略。
增量式网络爬虫：对应着增量式更新→指在更新时只更新改变的地方，所以在爬取中只爬取内容发生变化的网页或新产生的网页，对于未发生内容改变的网页，则不会爬取。
也就是在一定程度上保证所爬取的页面尽可能是新页面。
深层网络爬虫：
首先了解深层页面的概念：在互联网中网页按存在方式分类，分为表层页面和深层页面，所谓表层页面指不需要提交表单，使用静态的链接就能够到达的静态页面；而深层页面则隐藏在表单后面，是需要提交一定的关键词才能够获取到的页面。在互联网中，深层页面的数量往往比表层页面的数量要多很多。
爬取深层页面，需要想办法自动填写好对应表单，所以，深层网络爬虫最重要的部分即为表单填写部分（填写有两种类型）。
以上等等..在实际中多是这几类爬虫的组合体。

2.3 技能总览：

自动去网页广告、爬取多站新闻集中阅读、爬取金融信息进行投资分析等…..
总之，一定程度上代替手工访问网页。

2.4爬虫与搜索引擎的关系是密不可分的，以下对搜索引擎的核心技术进行一个简单的讲解：

2.5用户爬虫：

是网络爬虫的其中一种。是专门用来爬取用户数据的。相对来说是比较敏感的信息，所以用户爬虫的利用价值也相对较高。