Python——爬虫之基础（一）

笔者由于有快一年没有接触Python了，但是最近准备吧Python再给捡起来，，而且最近也在学习一些关于爬虫方面的东西，所以今天就给大家介绍一下爬虫的基础知识，关于爬虫的一些基本操作和演练会在后面的博客中介绍，也欢迎大家关注我的博客。

首先我们来谈一下爬虫的概念：

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性。为了解决存在的局限性，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫(general purpose web crawler)不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。

而如何进行爬取自己所需的数据呢，即爬取的一般流程是什么：

初始一批URL ,将这些URL放到待爬取队列。
从队列取出这些URL ,通过DNS解析IP ,对IP对应的站点下载HTML页面,保存到本地服务器中,爬取完的URL放到已爬取队列
分析这些网页内容,找出网页里面的其他关心的URL链接,继续执行第2步,直到爬取条件结束。

所谓的URL就是统一资源定位系统（uniform resource locator;URL）是因特网的万维网服务程序上用于指定信息位置的表示方法。它最初是由蒂姆·伯纳斯·李发明用来作为万维网的地址。现在它已经被万维网联盟编制为互联网标准RFC1738。

而搜索引擎如何获取一个新网站的URL

新网站主动提交给搜索引擎。
通过其它网站页面中设置的外链。
搜索引擎和DNS服务商合作,获取最新收录的网站。

网络爬虫程序在将网页爬下来之后，其中还有一个关键的步骤就是需要对我们关注的目标信息进行提取，从大多数无用的数据在提取出我们所需要的数据，而我们将爬下来的数据进行筛选时，这就需要我们用到Python中的表达式，如正则表达式等，大家关于正则表达式，可以去看看我前面的博客关于模块的一些用法上面写了正则表达式的一些用法，希望对大家有用。

Python——爬虫之基础（一）

猜你喜欢