如何透过数据标准看数据治理的实施

文章摘自5月28日,华矩科技数据治理系列讲座谭海华先生的分享。

今天跟各位分享的,是想尝试通过一个数据治理里面的一些关键环节,来看怎么样去进行数据治理。主要分为以下几个部分:

首先,谈谈怎么看数据治理的问题包括误区。我们从问题入手,我们看一看数据治理中最普遍碰到的问题,通过问题去分析我们所面临的情况。

第二个,通过一个数据治理结构更深入地剖析一下我们在整个数据治理里面的一些瓶颈和问题究竟在哪里。

第三个就是回到数据治理里面一个很关键的环节——数据标准,我们可以通过对数据标准的讨论来去看,在数据治理里面它所反映出来的问题。

最后一点,谈谈如何通过数据探查来驱动数据治理

我们谈数据治理,其实有这么几大块,包括数据质量、数据标准,包括数据安全,然后从横向来讲,我们又讲组织讲技术讲流程,我想这个是构成了我们整个数据治理的一些内涵。今天我们的聚焦点在数据标准管理里面,通过讨论数据标准的管理,来看我们怎么进行数据治理。
在这里插入图片描述
01 企业数据治理常见的误区及问题

那么当前企业数据治理的误区和问题在哪里?这里稍微罗列一下几个有代表性的数据治理推进的模式。

第一种推进模型包含了管理咨询、工具选型、实施落地,有些企业直接做完管理咨询,之后管理咨询会给他做工具选型,然后再让这两项实施落地。还有一种模型是从整体的数据治理框架的咨询基础上,落到更为具体的数据管控的一些范畴,比如说主数据管理、元数据管理,甚至还有一些数据字典、数据映射、数据标准,然后再到标准规范,再到工具选型,最后再实施落地。

在这里插入图片描述
这里面几个模型,整个思路无非就是先有方法,接着我们怎么去把内容做出来,然后我们希望用一个合适的平台把这些方法内容支撑起来,我想不管是用什么路径,不管是用什么推进的方法,这里面要做的这些工作是回避不了的。

那么为什么今天会挑数据标准跟规范来重点谈?可以说它是落在了一个承上启下的这么一个关键环节,当然我统称它叫内容了,有方法有平台,但是没内容也落不了地,就是说我们目前碰到的很多瓶颈其实是在这里。

这里我们讲几个场景,看看数据治理的问题,包括误区在哪里?

一种情况就是说我们会发现,后发标准会导致前期制定的标准要重新调整,对于一个数据治理项目来讲的话,我们应该怎么去处理这些问题,或者说怎么去优化这些问题,这个是非常典型的一种情况。

第二个就是说在这些企业里我们会发现在系统建设的时候,它的一些前后次序的考虑,因为这种考虑的一些情况可能会导致一些工作的返工,或者说导致一些工作没办法覆盖,这个次序问题对我们后面的落地来讲也至关重要。

还有一个,不同的数据质量现状及需求优先级决定了企业数据治理的路径。我们会发现在选择治理的优先级包括路径的时候,其实往往会决定于我们对企业自己的数据现状的判断是什么。

这里面我们会发现,其实每个企业都有它直接面临要解决的问题,同时也存在一些误区,主要体现在两方面。一方面,大家很容易把数据治理的某些工作静态化或者是说局部化,但因为这个数据是一个增量,是会变化的,怎么样去处理这些问题,我想这是要有一个动态发展的观点。另一方面,很多数据治理的工作,它不是基于准确量化的数据质量的诊断结果来去做的,也就是说可能它是脱离现状的、脱离客户的,或者说我们企业自己数据的一个现状,而是按照一定的规律去走了,最后耗时耗力却身陷进退两难的窘境。造成这些问题或误区的原因,可能是没有一个有效的工具来处理这些问题,因为没办法了解自己的数据,即使要了解,成本也很高。所以现在我们碰到的很大部分企业对这种数据问题的诊断,是通过手工来处理,广度深度跟扩展度都不够,就让他无法去做好这个事情。

02 企业数据治理的解构

接下来我们通过数据治理里面的一些具体工作,来看它是怎么样影响到数据治理成败的。

以人员信息整合为例,人员信息整合虽然看起来是简单的一句话,但是背后隐藏的事情不是想象的那么简单。比如说我们要实现各渠道员工信息, IT外包人员信息整合等等,这里面涉及到跨系统跨界,还有甚至可能会有跨不同的企业系统,怎么去整合这些人员的信息?

像是“李明”、 “李小明”这些大家看到非常典型的姓名问题,另外还有日期和时间也都不一样,入职时间也有不同的日志格式,要如何去进行统一识别?哪个是正确的?我们首先要问哪个是正确的,哪个是标准,这也是一个问题。最后就是,如何来确保语义的一致性?何谓语义一致性?比如说staff ID跟 ID还有卡号,在不同的工作表格里面,ID跟staff ID语义究竟是不是指相同的事,这些都是我们要面临并解决的问题。除了上述问题,这里面还有可能包含新旧系统的迁移,有核心系统异构数据集成问题、旧系统的数据质量问题,这些可能都是企业面临的现状。

在这里插入图片描述
不同的企业面临同样问题的时候,假如说他的数据治理的成熟度不一样,可能他采取的措施也是不一样的。当然成熟度决定了我们数据的现状,数据的现状决定了我们应该用什么样的方法,采用什么样的任务,采用什么样的路径来去达到我们的业务目标。

03 企业如何通过寻找事实来建立数据标准

不管你用什么方法,数据标准它必须要去建立的。那么如何解决上面列出的种种问题,首先需要了解企业数据标准建立的几种模式。

第一种方式是通过数据字典去核查

第二种则是溯源,我们在做数据标准时,它不是从零开始的,那么我们必须知道原来存在什么,所以产生大量的溯源工作。我们现在做数据治理及数据标准的时候,这将成为一个没办法逾越的过程。当然也跟我们的整个IT系统,包括我们的系统建设的一些文档的完整性,和我们设计的这些完整性有关,但往往是因为这些因素,甚至是历史的原因,我们没有办法再去了解整个脉络了。

还有一种就是理论派,即通过我们的一些定义来重新建立标准,这个标准的科学性怎么样,它能不能够覆盖过往的历史,未必想的那么周全,接着下来就是业务IT要落实验证了,然后发现冲突要进行处理,各方确认最后去执行。

不管用什么方法,我们的数据管理部门都需要考虑这三个问题,时间、成本及质量。有些是时间上让你无法承受,因为这历史数据太多了,我们不能花太多的时间去完成。第二个是成本,尤其是金融,我们用的还是早期的大机系统,我们现在连去读这种代码的人都没有了,这个不仅仅是成本的问题,甚至连技能都已经成问题,必须请更高阶的人或者说更稀有的人才去完成这个任务。还有一个就是质量,这种做出来的质量对我们有多大的保障。这几个维度可能会让我们在做的时候,要不就打退堂鼓,要不我们可能再减轻其他的要求,我相信是大家可能会面临的问题。

在这里插入图片描述例子:如何知道不同表中的字段是“一回事”(符合业务及技术标准规范)

你怎么定义这个标准?你的数据映射标准是怎么样去建立的?定义这个标准的原则又是什么?我们怎么确保不同表中的字段是一回事儿?如果同时符合业务跟技术标准规范,我们能够认为他讲的是同一件事。这里通过一个例子说明几种常见方法及其难点。

在这里插入图片描述
一种是数据字典核查,这种情况我相信大家都知道,并不是你所有的数据都能有数据字典核查的,这个是会面临的问题。
第二种是代码溯源,刚才我提到的没有数据支点怎么办?打开源代码,找懂代码的人一个个去看,看了当然你还要验证了,不是看了就可以,还要验证。
第三个是人传人,就是说我们只能在跟业务人员去沟通了,究竟你这个是什么事情?有可能业务人员讲给你,还得再讲给程序员,然后信息一级级地衰减,这是人传人的方法。
第四个是历史问题,那就更加没办法做了,成为历史的问题是什么?没有人知道。
还有一个是你对一些你不熟悉的领域,你怎么技术判断,我们都知道IT,我们没有办法像业务人员那样子对所有的业务都熟悉的,你对不熟悉的领域怎么办?怎么去做?
还有信息传递的衰减问题,这个就是在整个过程中会面临的问题。

04 企业如何通过数据探查驱动数据治理

那么如何有效解决以上几种方法的瓶颈?我们知道在企业数据治理里面有三大要素。

在这里插入图片描述
第一个就是起点,基准线数据治理它一定是要有起点的,这一点是对一个企业数据治理的标的,要治理的对象,要有一个清醒的认知,这是第一点。

第二点事实标准,在过往里面我跟很多企业交流过,我们也尝试过用刚才我们很多方法来做这个标准,但是这里面会面临刚才讲到的不可承受的这种压力,包括时间成本、资金成本、质量的问题。假如说我们能找到这个标准的话,它对解决我们刚才考虑的三个元素问题是非常关键的。

第三个就是快捷,我们讲数据治理就是说除了这两点,快捷也是很重要,因为我们的数据是增量的,是不断地在迭代在成长的,刚刚做完的标准已经没办法满足后续的数据成长的要求,所以我们经常会疲于奔命来不断修正我们的这种标准。

我们都知道,其实数据治理非常重要的一个目标,就是提升我们的数据质量。在过往华矩也做了一些这种实施的方法,即怎么样通过数据来分析我们的现状,然后给出我们的建议。当然我们在讲数据质量审查的时候有这么几个角度,一个包括我们数据的属性怎么看,我们的语义定义是怎么看,我们的规则怎么看,这些都是我们进行数据质量审查的时候去了解我们的现状,去了解我们的基准线,了解我们的数据治理的起点在哪里,会发现标准的异常,会发现事实标准,我们会对语义定义、业务规则进行认定,通过这种探讨,我们去发现一些跨系统历史数据的现状。

在这里插入图片描述
我们在看数据所谓的六性的时候,往往可以看出我们的业务管理跟我们的数据治理管理是怎么关联起来的,横向跟纵向是互为因果的关系。比如说你在做数据探查的时候,你在做数据质量检查的时候,你发现一致性有问题,而所有权跟责任这个板块里面是缺失的,说明这个板块的管理的内容的缺失会导致一致性的问题出现,也会导致准确度的出现。为什么?因为所有权不一样,这个没做好就有多头管理,多头管理它就有不同的定义,不同的定义就会影响它的准确度,一致性的问题。

在这里插入图片描述
反过来也是一样的,比如说像数据定义和标准化不一致的问题,会导致它的完整性的问题,为什么?因为它会产生不同标准,在一个系统里面他认为他是完备的,但在另外一个系统里面他是不完备的,所以探查完整性很快就会发现这个问题。当然还有准确性的问题,这些我相信是我们在做数据探查,在做数据诊断的时候,看到的不仅仅是数据本身的问题,它其实反映了整个数据治理的问题,这个就是为什么说数据探查能够推动我们数据治理的原因。

最后,关于企业数据治理项目的推进,有几点建议

首先,数据诊断是数据治理首发及必不可少的一步,所以说数据诊断要先了解我们自己的的情况,包括数据一致性的问题、组件分析、管理分析、依赖冲突分析、合规分析等等。在你开始做数据治理的时候,我们是建议要开展一些局部或者全局性的企业级数据质量诊断,来了解一下我们数据的基本情况是什么,找准你的基起点,包括你的基准线。

第二,建立企业级的数据质量跟踪处理平台的时候,你可以逐步去完善我们数据治理的某一些漏洞,但这个往往在现实生活中并不是大部分企业可以做到的,所以我觉得要用一个持续发展的观念来看这个问题。

第三个就是说要有一个精准的解决数据质量问题的方法,能够快速的定位这些数据治理面临的情况,并及时解决。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/hanxiaolaa/article/details/106915563