【Web Scraper教程03】(含动画演示)Web Scraper爬虫爬取"p2p数据平台"

版权声明:转载请务必注明出处并注明“武汉AI算法研习” https://blog.csdn.net/qq_36931982/article/details/91413577

《Web Scraper网页爬虫教程》 是我以谷歌浏览器插件Web Scraper为爬虫工具,理论与实战结合的教程。

如果大家有爬虫需求,欢迎大家公众号联系我,我可以免费帮忙爬取数据。

关于我的更多学习笔记,欢迎您关注“武汉AI算法研习”公众号,公众号浏览此系列教程视觉效果更佳

P2P数据平台是一个聚合现今众多P2P网贷平台的综合类网站,其收录了每个网贷平台的众多信息,包括借贷余额、成交额和新闻等众多数据。通过数据平台投资者能够进行平台的横向比较,同时数据平台提供的数据也为我们的数据分析工作提供了最原始的数据。

本文以“网d天y”平台数据为例,利用Web Scraper爬取数据

「需求」

1、爬取全平台收录的P2P平台数据,数据包括网贷平台名称、借贷余额、成交额、当前出借人数、当前借款人数和预期净额

2、爬取最终数据以Excel存储

「需求分析」

1、需求1中需要爬取整个平台的所有网贷数据,并且每个网贷平台的数据项目包括6类,经过网页分析发现网站默认只是显示了前97项的数据,如果需要浏览所有数据需要点击“加载更多数据”然后显示其它数据。而需求1中所需要爬虫的数据项都包含在同一个页面,意味着降低了爬取难度。

2、需求2中最终导出Excel存储,Web Scraper默认支持导出Excel格式

「Web Scraper爬取操作」

经过需求分析,爬虫主要任务难点通过模拟我们点击“加载更多数据”进行加载所有数据,之后进行爬取相应页面数据

第一步:创建爬取站点

打开Web Scraper插件栏,点击创建create new sitemap创建爬虫站点,命名站点名称(随意)和页面地址。

第二步、捕获整个表格

进入_root目录,点击Add new selector新建一个选择器。对选择器中的元素进行设置,设置参数见下图。

具体参数意思后面系列教材会讲解。

第三步、捕获表格数据中每行

通过第二步的操作让Web Scraper捕获了整个表格,由于页面数据分行显示,每行代表一个P2P平台。

第四步、捕获每行中的数据

由于网贷平台名称、借贷余额、成交额、当前出借人数、当前借款人数和预期净额这些数据,存在每行之中,则这次进行捕获每行中的信息。

第五步、启动爬虫工具

点击Scraper,正式进行爬虫,Web Scraper根据定义的各个动作action打开新的浏览窗口,模拟人为点击操作进行爬取数据,这也是利用Web Scraper能够顺利规避网站反爬虫的原因。爬取完成后刷新数据显示。

第六步、导出Excel格式

点击工具中导出Excel格式,Excel数据和原数据进行核对,数据爬取完整正确

下节预告《【Web Scraper教程04】Web Scraper插件的selector理解》

猜你喜欢

转载自blog.csdn.net/qq_36931982/article/details/91413577
今日推荐