大数据治理不是人人都会(一)

大数据治理不是人人都会

 作者结合在区域医疗领域数据治理的经验,以Kimball数仓建设方法论为核心,希望能深入浅出的讲解大数据治理的思想和方法,让大家对大数据治理的功能效用有一个全面的认识,走出一些理解的误区。(阔海星沉@CSDN原创,转载请注明出处)

1 真的难吗

1.1 What is Big Data Governace
Volume-容量
Velocity-时效
Variety-多样
Value-价值

 大数据治理区别于业务系统,它本身不是应用软件,没有具体的场景、页面、功能,而是对已有业务系统中数据价值的挖掘。因此,大数据治理的前提是要有数据,并且数据量多、数据种类或形式多样化、数据内容不断变化。而数据治理的本质,就是将原本存在于各个业务系统中杂乱数据变现的过程。

1.2 Big Data VS. Data WareHouse

 虽然,数据仓库的概念早于大数据,并且,挖掘数据的价值不一定非要使用数据仓库。但是,在云平台兴起的当下,基于云计算,利用数据仓库的思想和技术来解决大数据治理问题,是大势所趋。下面,我举个例子。

 区域医疗数据治理的场景中,数据的来源有:市级医院业务数据、基层医疗公共卫生数据、母子健康系统、人口死亡系统、智慧生命通道系统、运行监管系统等等。数据量非常大、数据来源和种类样数极多、并且时刻都在变化。

 这些数据治理好之后,需要支撑的应用系统有:患者主索引、健康档案、处方点评、DRG、病历质检等。会产生巨大的价值。

在这里插入图片描述

  • 标准化

类比于矿变铁的过程,同一个人的检查数据(例如测血压),可能存在于各个医院的不同厂商的信息化系统中,面临表结构不同、数据单位不同、码表不同的各种问题,需要进行统一的标准化;

  • 模型化

类比于把钢铁轧成不同型号钢胚的过程,虽然数据经过了标准化,但相同含义的数据还存在于不同的表中,数据仍是杂乱无章的。为了方便数据的取用,根据业务特点设计涵盖所有数据的模型,把标准化后的数据注入模型,形成数据明细层。至此,杂乱无章的数据变成了统一的、完整的、规范的,可以方便取用的模型化数据。

  • 主题化

类比于把钢胚锻造为不同行业需要的标准零件,如果业务场景非常复杂,需要把模型化的数据按不同应用场景主题化。数据主题化的过程中,虽然会产生冗余,但由于是针对具体应用场景开发,数据会像标准零件一样,可以直接使用。

  • 功能化

类比于一个钢铁作品的最终产生,使用模型化或主题化数据,开发数据应用,最终产生数据集市,形成价值。

 利用数仓技术进行数据治理的过程,可以类比于钢铁产品的制造工艺,通过标准的工艺,方便数据的取用,不仅能够提高开发效率,还可以减少重复计算,节省计算成本。

扫描二维码关注公众号,回复: 12847462 查看本文章

 看到这里,大数据治理的逻辑清晰,技术成熟,好像也没什么太深奥的。但真的只是这样吗?

To Be Continued…

猜你喜欢

转载自blog.csdn.net/ManWZD/article/details/113678169