2018企业大数据挖掘-创业首选项目

自从2017年4月份从事大数据深度挖掘以后,强烈的感觉到整个互联网的发展趋势为大数据和人工智能,

而我恰恰爱上了大数据深度挖掘方向,17年的4月份第一次开启了大数据爬虫技术工作是负责帮助某个产业园挖掘企业天眼查数据、企业工商数据,然后做成一个企业大数据360度的分析。在全中国有多少家企业数据? 这是一个亿万级的大数据挖掘,当时做了大数据架构分析,天眼查的数据属于页面非结构化存储数据,那么我们必须选择一个好的数据库来存储海量的数据,而且数据包含了19个维度:基本信息法人代表主要成员股东&出资变更记录公司年报司法风险舆情事件岗位招聘商品信息网站备案商标数据专利数据作品著作权软件著作权对外投资关系税务评级行政处罚进出口信用、企业评级信用等十九个维度的企业数据,我对每个企业这些数据进行多表关联,最终形成了一个企业报告、企业信用报告、企业招商报告、企业商标报告等。后台系统管理我采用了php开发,爬虫采用了分布式架构python爬虫,24小时不断的更新数据,对数据进行帅选,提炼,清洗等最终形成标准的数据库。通过整整加班一个月才做完整个大数据系统的开发工作,然后我们就开始启动很多服务器和进程分布式去跑数据,因为爬虫需要解决的第一个技术就是ip封号问题,一个IP如果重复的去爬某个网站,几分钟不到就被封号了,所以爬取海量的大数据需要足够的ip,于是我自己开始搭建了IP池,代理IP池解决了封号的问题,可以完成海量数据采集的工作。大数据挖掘深现在是刚刚开始,未来越来越好,我也在不断学习,欢迎喜欢大数据挖掘的朋友可以私我qq:2779571288,希望在大数据深度爬虫上通过我的技术可以帮助到更多的人


猜你喜欢

转载自blog.csdn.net/liujainq/article/details/79414406