python爬虫-企业信息库大数据爬虫系统-内核源码-商业完整破解版

    因为一直从事深度爬虫前沿技术研发,最近有几个创业的朋友找我帮忙建立企业库和政策库大数据,因为我前段时间刚刚帮朋友完成了“天谋查和企谋查”企业库数据的分布式爬虫系统的研发,解决了封IP技术和字体库加密技术问题,同时解决了亿万级的大数据分库分区存储的问题,企业信息的数据维度从17个增加到了30个维度。

利用爬虫技术,实现企业数据库的建立,是需要消耗很大的技术精力,首先我对企业进行了按城市维度进行分库,全国月667个城市,每个城市都建立一个自己的数据库,然后采用我们分布式爬虫系统,在建立企业库的时候,面临以下几个问题

欢迎对爬虫技术和大数据挖掘感兴趣朋友加我qq2779571288

 采集速度太频繁了,会被封IP问题 怎么解决

当我们发出去的http请求到天谋查或者企某宝网站的时候,正常情况下返回200状态,说明请求合法被接受,而且会看到返回的数据,但是天谋查有自己的一套反爬机制算法,如果检查到同一个IP来不断的采集他网站的数据,那么他会被这个IP列入异常黑名单,您再去采集它网站数据的时候,那么就永远被拦截了。怎么解决这个问题呢,其实很简单,没有错用代理IP去访问,每一次请求的时候都采用代理IP方式去请求,而且这个代理IP是随机变动的,每次请求都不同,所以用这个代理IP技术解决了被封的问题。

自己搭建代理池ip

做爬虫技术都知道,代IP的质量决定了爬虫的效率,要想爬快一点,必须选择质量好,高匿名、不重复、时间长的IP,在选择代理IP的时候,市场价格好的搭理IP一般是4-6万一个月,所以当时为了避免这个费用成本在,就自己采用redis集群技术搭建了代理池,利用技术优势节省了一大截成本。

全国667个城市、每个城市建立一个自己的数据库

采用爬虫技术对天某查、企某查的数据进行挖掘的时候,首面临的是选择存储数据库,如果选择mysql数据库,那么海量的数据存储和搜索肯定是支撑不起来的,分析这种非机构化的数据,我当时就采用了mondb数据库来存储,然后每个城市建立一个自己的数据库,这样实现了分库功能,避免数据量大的时候查询不动的问题。

建立政策大数据库

采用爬虫技术按地区建立一套政策大数据库,实现政策分析、数据对比、智能匹配等功能,建立政策库比建立企业库复杂100倍了,各种政府开放的网站的数据整合和挖掘,然后存储分析,整整花了2个月时间,完成各种模型的建立。

最近在自己用python+mongdb写了一套分布式多线程的天某查爬虫系统,实现了对天某查整个网站的全部数据各种维度的采集和存储,并且根据天眼查网页的数据结构建立了30个表来存储30个维度的数据,很多做技术的朋友在爬天眼查的时候会遇到以下几个问题,我把我的经历和解决方案分享给大家。(需要爬虫技术交流的朋友欢迎加我qq2779571288

1、天眼查和启信宝哪一个的数据更难爬呢?

     其实在准备爬天眼查数据的时候,我对启信宝、企查查类似的网站分布从数据的完整性和数据的更新及时性分析了,结果个人觉得天眼查的数据比其他网站的要完整,数据维度要多一些,数据更新的时候也比较快,所以最后选择了爬取天眼查里面的企业数据。

2、30个核心数据维度:

天眼查、启信宝、企查查等首先整个网站有主要核心数据有以下30大模块1基本信息2法人代表、3主要成员、4股东&出资、5变更记录、6公司年报、7司法风险、8舆情事件、9岗位招聘、10商品信息11网站备案12商标数据13专利数据,14 作品著作权软件著作权16对外投资关系17税务评级18行政处罚19进出口信用、20企业评级信用等十九个维度的企业数据,如果把这些数据爬下来,并且结构化,实现可以查询可以检索使用,可以导出到excel,可以生成企业报告,那么需要建立数据库来存储这些数据,像这种非结构化的数据我们选择mongdb数据库是最合适的。

3. 采集速度太频繁了,会被封IP问题 怎么解决

当我们发出去的http请求到目标网站的时候,正常情况下返回200状态,说明请求合法被接受,而且会看到返回的数据,但是目标有自己的一套反爬机制算法,如果检查到同一个IP来不断的采集他网站的数据,那么他会被这个IP列入异常黑名单,您再去采集它网站数据的时候,那么就永远被拦截了。怎么解决这个问题呢,其实很简单,没有错用代理IP去访问,每一次请求的时候都采用代理IP方式去请求,而且这个代理IP是随机变动的,每次请求都不同,所以用这个代理IP技术解决了被封的问题。

4  天眼查2个亿的数据量怎么存储?需要多少的代理IP

 我在写爬虫去天某查的时候,刚开始使用网上的免费或者收费的代理IP,结果90%都被封号,所以建议大家以后采集这种大数据量网站的时候 不要使用网上免费的或者那种收费的IP,因为这种ip几秒钟就会过期,意思就是你没有采集网或者刚刚访问到数据的时候,这个IP就过期了导致你无法采集成功,所以最后我自己搭建了自己的代理池解决了2个亿天眼查数据的采集封IP问题。

5 天眼查网站数据几个亿数据的存储

 数据库设计很重要,几个亿的数据存储 数据库设计很重要

欢迎对爬虫技术和大数据挖掘感兴趣朋友加我 qq 2779571288

猜你喜欢

转载自blog.csdn.net/weixin_42380490/article/details/80623336
今日推荐