Python的应用领域

一、什么是网络爬虫

   爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来,然后使用一定的规则提取有价值的数据。

二、爬虫的种类

   网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。

三、工作原理

   搜索引擎网络爬虫的基本工作流程如下:

第一步:抓取网页

第二步:数据存储

第三步:预处理

第四步:提供检索服务, 网站排名

猜你喜欢

转载自www.cnblogs.com/renleiblog/p/12395145.html