大数据治理不是人人都会(二)

大数据治理不是人人都会

 作者结合在区域医疗领域数据治理的经验,以Kimball数仓建设方法论为核心,希望能深入浅出的讲解大数据治理的思想和方法,让大家对大数据治理的功能效用有一个全面的认识,走出一些理解的误区。(阔海星沉@CSDN原创,转载请注明出处)

2 挺难的(上)

 大数据治理的英文名是 Big Data Governace,其中 Big Data 指的是我们使用了大数据和数据仓库技术,Governace 则代表其中还涉及到协调多方和统筹管理的内容,因此,这必然是一个极其复杂的问题。

2.1 组织架构复杂,需要统一的领导

 如果所有数据都来自于一个业务系统,不论这个业务系统有多复杂,都不能称之为数据治理。因为这些数据本身就拥有统一的标准、相同的环境、相同的参考数据,我们所需要做的,无非是使用 OLAP 技术对数据进行异构化和分析罢了。

 大数据治理的多样性,导致大数据治理场景中,数据往往产自于多个部门,需要各个部门在协作的过程中,同时要承担不同的责任。区域医疗场景中,涉及到的机构就包括卫健委、各级医院、基层卫生所等等数十个。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7DNuypTt-1616318083571)(/Users/zhendong/Documents/MD-pic-ref/2021-02-10 数据治理管理.jpg)]

  • 如果没有统一的管理制度,不能建立有效的反馈机制、奖惩机制,数据治理必将沦为形式化;

  • 如果责任不明确,很可能会出现这种情况,当需要整顿优化业务流程从而配合得到高质量的数据时,由于涉及工作量和风险,相关的数据来源部门会害怕担责任,拒绝或排斥提供相关数据;

  • 如果无法合理的分配利益,就无法充分调动各方的积极性;

  • 如果不能准确判断风险,必然弯路不断,治途坎坷;

  • 如果不能有效推动进度,必然将陷入泥沼之中,数据治理的成本就会直线上升,损害最终的所得价值;

  • 如果没有坚强的领导,上面所说的一切,都无法实现。

2.2 业务复杂,需要统一的模型

 数据治理的核心便是模型规范,模型定义了业务逻辑,数据内部约束,外部约束,字段类型,字段阈值等等。

 模型的设计并不简单,首先要合理,即符合行业标准、国家标准和省级标准,同时还要能适应本地特色,囊括各种各样的场景和应用需求,并且还需要有指导意义,方便后续的扩展和升级。

 满足合行业标准和国家标准是最基础的需求,一方面是为了满足医疗机构或区域管理机的构评级需求和上级考核任务,另一方面也是为了更高层级的数据互联互通的需求。

 本地化抽象的模型不可取。简单对收集到的数据进行抽象和归纳,总结出一套本地化的模型,虽然简单可用,却不具备扩展性和指导性。一旦上层应用提出新的需求,需要接入新的数据,很可能会因为兼容性的问题,导致模型的重构,费时费力。

 大一统的模型也是不可取。妄图在不同地域使用统一的模型,最大化提高模型的复用率,往往会带来其他问题。一套成熟的模型虽然能够适配90%的需求,解决扩展性和指导性的问题。但是,一成不变的大一统模型往往无法完全贴合本地的需求,带来多余无效的字段或业务逻辑。在数据收集和治理的过程中,无效的字段会产生错误的纠正信息;在数据使用过程中,多余的字段会带来脏数据,甚至影响业务逻辑。

 因此,想做好这件事,需要数据治理团队,拥有丰富的行业经验,成熟的数据模型,强大的调研团队。通过对应用需求的调研、数据现状的调研,在已有成熟的数据模型上做一部分定制化的设计,得到一套完善的数据模型。下图为医疗领域的模型分组(模型数量200+)。

基础医疗
公共卫生
住院
门诊
检查
检验
体检
影像
财务报表
物料消耗

To Be Continued…

猜你喜欢

转载自blog.csdn.net/ManWZD/article/details/115052184