如何搭建一套完整的工商企业数据基础库?

国家企业信用查询网 是所有工商数据的来源。所有注册的企业都可以在这个上面查询到,如果你应聘的公司查不到,那有可能是黑公司。

通过采集里面的基本信息 和 年报信息,就形成了一份基础库,但是采集难度非常大,主要在验证码这块,动态的验证码确实是一道难关。

在这个基本信息库的基础上,可以采集企业多维度数据,比如说 专利数据、招聘数据、商标数据、失信数据、公司新闻数据等等,围绕着工商企业为中心,逐渐的完善整个企业库,从而可以在这个企业库的基础做非常多的应用。

企查查、天眼查 等众多企业查询网站,都是在这个基础上做起来的,而且做的非常不错。当然如果想要合作,一个城市的企业数据就可以达到数十万的盈利,哎,谁叫人家后台有这么多人在维护,在采集。基本上可以一个人负责一个采集方向就可以了。但是对于人少的公司,一个人需要采集的信息那是非常多的,导致的一个结果就是因为网站更新速度比较快,程序是需要进行修改的,从而有点力不从心。

设计基础库的重点在于 数据结构,尤其是企业主键的设计方式。因为涉及到排重 以及 更新的问题,在这里有一个非常好的思路,那就是企业分为 公司 和 个体户两类。对于公司而言直接使用公司名称的md5即可,对于个体户 就是 md5(公司名+信用号/注册号) 这样就可以使整个库的ID不存在重复。对于年报 的ID来说,直接使用md5(企业ID+年份) 就可以了。

依次类推,得到每张表的ID 设计模式。

数据存储的话 就直接使用ES就可以了,这里面 涉及到 搜索 和 统计 都可以非常好的得到满足。

当然有的还需要进行解析,比如进行行业划分,使用自定义的行业分类算法就可以。整个企业库的数据量是非常大的,所以服务器也必须是多台分布式的。尤其是要做好备份。

在这里附件一份整理好的工商基础库结构信息,可以参考来进行建立。

结构文件:https://qianjieyun.com/netshare_upload/attach/2018-05-26/29dcd2b691a74632b3fa35a9a2fd0a04.xlsx

猜你喜欢

转载自blog.csdn.net/fhg12225/article/details/80463401