蔡春久:主数据标准化如何建设

亿信华辰「2023数字赋能季」主数据管理专场第一期成功举办。我们邀请到了中国数据标准化及治理专家蔡春久为大家带来主数据管理从理论到工具层面的分享,全程干货,深度解读,以下是演讲全文。

蔡春久:中国大数据技术标准推进委员会数据资产专家、中电标协企业信息标准化委员会常委委员、中国数据工匠俱乐部发起人。

今天晚上我分享的题目是《主数据标准化如何建设》,主要介绍国内主数据管理挑战与趋势、主数据管理的两体系一平台、主数据治理项目实施方法及难点分析。

主数据管理常遇到的问题和挑战

首先我们来看看国内主数据管理的挑战和趋势。国内很多大型的集团企业做信息化已经做了10年以上,过程中难免会遇到很多数据质量问题,比如找数困难、数据不完整、数据标准缺失、数据不一致、用数门槛很高等。看似浮于水面的数据准确性问题,其根源是潜于水下的深层次数据治理问题,这才是制约科学化决策和业务管理提升的真正原因。

接下来我分别从常见的5种问题来说起。

①第一个就是信息缺失,比如产品、客户、行业等信息缺失,会导致我们的记录信息不足,风险管控失真,数据分析业务决策难度加大。

②第二个是口径不一致,同一业务概念在不同系统中存储的形式、概念范畴不一样,同一个主数据多头维护,导致各种数据质量问题,比如同名不同义、同义不同名等。

③第三个就是数据分散,比如在一个大型集团企业里,客户信息分布于多个业务系统、业务数据分布于流程中各个节点,导致我们缺乏全貌的数据掌控,无法形成这个客户的360度画像,数据多次维护导致数据冲突。

④第四个就是信息重复,一个客户对应多个客户信息,这样会导致统计错误,业务指标不能准确及时全面地同步,也难以确认权威的数据来源。

⑤第五个是信息孤岛,不同部门、不同分公司、区域分支机构业务系统中的数据分层分散存储,导致经营数据割据,数据汇总、流通困难。这是我们在整个信息化过程中常见的一些问题。

而且,我们缺乏企业级的视角做数据标准。比如说这是一个工字钢,在工程部门、采购部门、设备部门的描述都有着很细微的差别,导致我们可能本来仓库里已经有这个物料,但在物资采购中无法自动汇总,间接导致库存成本较高,对各类统计报表分析也带来很大困扰。其背后的原因是缺乏企业级的数据标准,导致跨部门跨组织跨业务单元跨板块之间缺乏共享基础。而且由于没有属于自己数据工具做支撑,数据质量无法保障,分散的数据也难以统一管理规划。

下面我们来看主数据管理遇到的常见的四大挑战。一是不重视主数据的总体规划,缺乏顶层设计;第二个客观原因是是通用标准主数据,比如国际标准、国家标准和行业标准产生的主数据,往往在国家层面,管理分散,缺乏便捷可靠的数据获取渠道,数据获取困难;第三个是企业内部原因,即企业内部已经存在分散管理的主数据,缺乏统一标准和数据关联;第四个挑战主要存在在一些大型集团化企业中,由于系统众多、年代跨度久远,一些早期的系统数据标准化程度不高,改造难度大、成本高,给主数据应用集成带来较大的困难。

我们做企业数据管理的人员也会遇到一些常见的问题。第一个是“两层皮”,很多标准并没有真正落实到管理,体现在实践中,平时束之高阁,比如很多编码规范、主数据标准等,只有在每年总结汇报或者外部审核时才抛头露面。第二个叫“夹生饭”,与企业管理实际脱节,制定标准可操作性较低,管理层操作层无所适从,难以指导信息化工作。第三个是“靠边站”,数据治理、主数据管理”说起来重要、做起来次要、忙起来不要“,标准化管理在“工期紧、任务重”的压力下,往往就是为业务系统实施让路,阻碍了企业标准化管理。“两层皮”、“”夹生饭”、“靠边站”就是我们数据管理人员遇到的一些困难的真实写照。

主数据相关术语及定义

接下来我们重点把主数据的一些术语定义进行简要介绍。众所周知,主数据是满足跨部门业务协同需要的、反映核心业务实体状态属性的基础信息。我们可以简单这样理解,两个或两个系统以上公用的技术数据叫主数据。主数据相对于交易数据而言,属性相对稳定,准确性要求更高。主数据有三性:准确性、唯一性和在异构系统中的一致性。

主数据有5个明显特征,我们称作5个超越:

①超越部门。主数据是满足跨部门业务协同需要的,是各个职能部门在开展业务过程中都需要的数据,是所有职能部门及其业务过程的“最大公约数据”。

②超越流程。主数据不依赖于某个具体的业务流程,但却是主要业务流程都需要的,主数据的核心是反映对象的状态属性,它不随某个具体流程而发生改变,而是作为其完整流程的不变要素。

③超越主题。主数据是不依赖于特定业务主题却又服务于所有业务主题的有关业务实体的核心信息。

④超越系统。主数据管理系统是信息系统建设的基础,应该保持相对独立,它服务于但是高于其它业务信息系统,因此对主数据的管理要集中化、系统化、规范化。目前我们业内很多把主数据工具做成数据平台的一部分,我觉得这也是可以理解的,一方面为我们前端的业务系统提供数据的一致性唯一性保障,另外也为我们的整个数据平台、数据仓库、数据中台提供主数据的服务。

⑤超越技术。主数据必须应用一种能够为各类异构系统所兼容的技术条件,从这个意义上讲,面向服务架构(SOA)为主数据的实施提供了有效的工具。

举一个这是一个组织机构,上面是基本视图,包括单位名称、性质、通讯地址等,基本视图是较共性的。针对内部单位,会有人力资源部关心的一些字段,在人事视图里就会有管理层级、人事单位层级等。而对于财务部来说,财务视图里则包含控股比例、业务板块等。

除了主数据间的关联外,主数据内部也有上下级的层级关联。比如物料中有大类中类小类,组织架构从公司到处室到岗位,这都是主数据内部的层级关系。这个层级关系也叫主数据。

下面是具体的一个应用场景。在一个工业企业中有一个设备,它的KKS码信息包括安全等级、安装位置、质保等级等;从物资供应链视角看,它涉及到这个物资的规格型号、材质等信息;从设备个体信息来看,它有购置时间、购置价值、制造商、序列号……同一个东西在不同的应用场景可能是不同的数据对象。通过关联关系,可以提升主数据维护的效率,减少手工重复录入和冗余存放,而不是简单的手工表单电子化。

主数据管理体系

主数据管理涉及两体系一平台。我们首先讲一下主数据的管理体系,它包含以下三个部分。

①主数据标准体系:是主数据管理工作的重中之重。它包含主数据业务标准(编码规则、分类规则、描述规则等)、主数据模型标准;以及衍生出一套代码体系表。

②主数据保障体系:涉及到主数据管理组织、制度、流程、管理、评价这五部分内容。

③主数据管理工具:包括数据建模、数据整合、数据管理、数据服务、基础管理、标准管理等功能。

我们下面重点讲一下主数据标准体系。主数据标准体系涉及三大块内容:一块是主数据的应用标准及规范,例如编码规则、分类标准、命名规范、主数据模型、提报审核指南;第二块是主数据管理标准规范,涉及到主数据的组织制度、规范管理流程等;第三块是主数据集成服务标准及规范,主要包括主数据格式规范、原系统接入规范等。

在集团企业中,主数据种类有很多。最下面的是通用基础类的,也叫参考数据,如行政区划、币种、语种等。一般大型集团里大概有四五十种通用基础类数据。这类数据大部分是国标、行标,变化缓慢、基本上不变化。集团里也涉及到大量的人力资源、财务、客商等数据,还涉及到多元化的板块,比如新能源、地产、金融等,部分板块也会有板块本领域内的一些数据。所以我们首先需要梳理这样一个主数据资产目录,这样我们可以按照总部通用的每个专业板块来进行主数据的推广、应用。

主数据的应用标准主要有五大类。第一类是分类标准化,我们一般是按照自然属性进行分类。第二类是是编码规则,我们一般建议用流水码做编码规则。第三类是命名规范,主数据每类数据对象都有命名规范,在工业企业中这一块是非常复杂的,待会儿我会详细介绍。第四类是数据模型,也就是管理这个主数据在主数据系统有多少个字段。第五类是编制提报审核指南,用于指导主数据填报。这五类标准有的简单有的复杂,如果是比较简单的主数据对象,这几个部分合在一个文档里就可以,如果比较复杂的话,就需要分开单独列文档。

我们以资产密集型行业为例,比如能源、电力、石油石化、矿业等。首先按照数据对象全生命周期,工程设计部门设计的工程项目有工程材料编码,到了采购部门就是物料编码,到了法务部门就会涉及到物料代号,到了仓储部门就是物料代码,到了转资环节这个就是固定资产编码,到了生产运行阶段涉及到设备管理和备份需求这个就又是物料代码了。按照这个公司级架构,从工程材料编码、到物料编码、到整个工程资料编码再到设备编码,如果设备安装位置不同还涉及到KKS码,另外还有故障代码等,码的类型有很多。我们在管理的时候有三码合一,也有六码合一,六码合一就是把一些故障码以及KKS码都算上,将最核心的这六类码做一个关联体系,这样的话主数据就能互动起来。

接下来我们来看看固定资产、设备、物料之间差异点。固定资产是站在财务的视角来看的。设备往往是站在生产视角来看的。而物料,主要是作用于采购、销售。生产和维修等环节。同样一个对象,在整个供应链的不同环节可能要编不同的码,需要建立起相互间的关联关系。

物料在工业企业中是最为复杂的。物料数据有四类:物料分类、描述规则、编码标准和填报指南。

在大型制造企业物料一般分为大类中类小类,以此来形成一本书,所有职能部门都需按照统一的自然属性分类来进行统计分析。分类特别重要,往往哪个是牵一发而动全身,一般定下来之后不能轻易调整。

主数据的编码规则(命名规范)是指,把物料按照自然属性拆分描述。下面我们以线缆为例,它的自然属性包括名称、燃烧特性、电压等级等,我们可以按照国标将其拆分,然后生成结构化的物料描述模板,统一描述格式,不会因人而异导致命名的差异。拆分出物料描述模板后就会形成非常规整的名称,由系统自动生成,从而保证能通过名称来确保物料的唯一性和准确性。

关于主数据的管理标准和规范,涉及到主数据管理的组织与制度、主数据管理流程、主数据应用管理和主数据管理评价。数据管理制度流程为主数据管理工作开展提供有效的依据和指导。是主数据管理与运营的重要保障。制度流程的合理性=正确的方法+可落地执行的保障。

凡是主数据做得好的企业,都有主数据相应的一些岗位,比如专家、审核、标准组,质量组等,来确保一整套主数据标准能够正常运行。

主数据的集成服务标准也非常重要。因为主数据要为所有系统、所有用户、所有业务部门都提供共享服务,其中就涉及到主数据的规范格式、集成数据的选择标准等。明确主数据集成服务标准,能够确保主数据能更好地提供服务。

主数据运营体系

我们接下来介绍一下主数据运营体系。运营体系涉及到主数据的管理组织、制度、流程及知识库的建立,包括主数据管理平台。

大型集团企业一般需要建立“总部—子集团/专业领域”二级维护的组织保障体系,重要数据均有对应的业务牵头部门,这样才能让标准“保鲜”。下面是一个例子,主数据编码由用户提出申请,通过主数据管理平台由业务部门做初审,然后再由专业团队做专业审核,当然不同的数据对象会匹配不同的专业审核团队。两道审批过后,再进主数据编码库,通过各种形式对业务系统提供服务。所以我们要在企业中搭建这种兼任或者专职的团队,来让这种运营机制建立起来,从而确保主数据管理的持续性。另外还需制定主数据的维护细则,确保数据正常运行。

主数据管理平台

传统的主数据管理工具,包含了主数据采集、模型编码管理、分发服务等功能。

主数据的服务架构,以集团企业为例,有通用基础域、财务域、人力域等,还有一些专业领域比如房产、金融等领域的主数据,都可以通过数据服务平台借助API对外提供共享服务。当然我们主数据源头,有一部分来自业务系统,有一部分可能来自外部数据。比如工商主数据库,可以通过企查查天眼查来做个比对。主数据平台内置接口,业务系统如果要用主数据首先要通过这个接口来调用服务,从而保障对主数据系统的数据进行全域管理,再通过申请审批功能,来确保业务系统主数据的一致性、唯一性和准确性。

目前随着这种大数的应用,仅仅管理静态的字段可能并不能满足业务部门的需求。新一代主数据管理平台不仅仅是管理静态字段,更多地是要管理基于数据对象的非结构数据、半结构数据,还有一些内外部相关的数据。也就是说,我们将数据作为大数据分析的起点,将大数据场景用于匹配多个数据域和提取业务见解。

对主数据进行多维度管理,可能就会慢慢的就模糊了原来静态管理的概念。下面以石油化工行业的井/井筒为例,来看看新主数据管理。

井的数据全生命周期,包括井的部署设计、钻前工程、钻井工程等。在井的钻井、录井过程中,会涉及到钻井的一些视频、图片数据,还有大量文档数据。我们可以通过语义识别,把这些数据全部汇聚在一起。这样我们可以看到井筒从开发到报废的主数据全生命周期的过程,对于我们业务是有实质性帮助的。如果只管一个编码、一个名称,业务价值可能就体现不出来。我们未来做主数据一定是向这个方向发展,这样更能解决业务的痛点,而不是仅仅管静态的数据。

主数据服务需要引入数据服务总线和微服务网关,将做完之后的主数据发布到个API网关上面。主数据服务包括查询、快速新增、运维、深度分析等。基于主数据对结构化数据、半结构化数据、非结构化数据的综合分析能力,让用户一目了然更方便地看到所需的主数据对象。

目前国内很多世界500强企业又重新开始做主数据,原来的工具已经不能满足他们的需求。我们就可以基于这样一个数据一体化的平台,再来做主数据建设工作。

主数据治理项目实施方法及难点分析

我们再来分享一下主数据怎么实施,有哪些难点。

我们把主数据分成7个阶段,大概28个步骤。

这其中较难的就是做好主数据现状的调研和分析,需要通过业务调研还有信息调研来判断主数据的需求具体是怎样的。第三阶段主数据标准体系构建大概占到了整个工作量的30%。主数据标准也是动态变化而非一成不变的,主数据随着管理颗粒度的不断细化,主数据标准也会随之动态调整。主数据清洗占了整个过程中很大的工作量,大概40%,有了主数据标准后,就要针对我们的业务系统进清洗。之后工具平台要以服务的形式跟所有业务系统做对接集成。最后是主数据的运营体系建设。建立数据标准、数据清洗等大概半年时间就可以做完,但每个企业都不是一张白纸,不同企业做到的程度不一样,有的新老系统切换路径可能都需要三年五年甚至更长时间,这是风险难度最大的一件事情。所以说主数据项目开弓没有回头箭,项目一旦启动,后面一期二期三期可能一做就是很多年。

主数据的贯标也是比较复杂的,尤其是在企业系统较多且比较重复的情况下。针对在建系统或者待建系统,须用我们建的标准直接贯标,相对比较容易。针对已建系统难度较大,一个方式是替换,将原来的主数据标准替换成最新的主数据;第二个是对照,对照不是特别好的方式,但有时候也没办法,一旦要对照的话,工作量也很大。

所以我们大致有三种方案。第一个就是系统重新上线,相当于重新做一次初始化,这个对企业其实还是有比较大影响的。第二种方案是对原系统做一次系统性调整,主要做新旧物码的转换。方案三就是做原系统分阶段调整,这个调整也不是最佳方案,需要以时间来换空间。

所以说主数据贯标的难度是特别大的。如果一个集团公司系统特别多的话,可能需要两三年甚至更长的时间来逐步将这一套标准在各个系统里落地。

小结

今天我们要讲的内容就到这里。我简单总结下,主数据是数据之源,是数据资产管理的核心,是数据中的黄金数据,也是信息系统互联互通的基石,是信息化和数字化的重要基础。做好主数据治理,能为数据分析、数据入湖建立非常重要的基础。主数据是跟我们业务系统紧密联系在一起的,只有做好主数据才能为大数据分析建立更好的基础。

猜你喜欢

转载自blog.csdn.net/esensoft123/article/details/130347427