Scrapy是一个开源的Python爬虫框架,可以用来轻松提取从页面数据。Scrapy带有丰富的特性,可通过简单的编码或配置来访问,从而可以节省开发人员数周的开发时间,并高效地提取所需数据。Scrapy有一个高度活跃且迅速增长的社区,而且已经成为黑客、创业者和Web爬取专家的首*框架。
本书讲解了Scrapy的基础知识,讨论了如何从任意源提取数据,如何清理数据,以及如何使用Python和第三方API进行处理,以满足自身需求。本书还讲解了如何将爬取的数据高效地馈入数据库、搜索引擎和流数据处理系统(比如Apache Spark)。在学习完本书后,你将对数据爬取胸有成竹,并将数据应用在自己的应用程序中。
本书内容:
使用HTML和Xpath提取所需的数据;
使用Python编写Scrapy爬虫,并在网络上进行爬取操作;
将数据推送到任意数据库、搜搜引擎或分析系统的方法;
配置爬虫,使其下载文件和图形,以及使用代理;
创建用来限流数据的高效管道;
使用Twitsted实践驱动的API并发处理数百个Item;
让爬虫更快速,让内存使用率更高,以及对Scrapy性能进行调优的技巧;
使用Scrapyd和Scrapinghub执行大规模分布式爬取操作的方法。
精通Python爬虫框架Scrapy PDF下载
猜你喜欢
转载自blog.csdn.net/yuanlong1811/article/details/83510442
今日推荐
周排行