机器学习、数据科学与金融行业 系列五:数据治理(Data Governance)上

机器学习、数据科学与金融行业

在这里插入图片描述

系列五:数据治理(Data Governance)上

数据科学家是懂得获取、清洗、探索、建模、解释数据的人,…,数据科学家不仅要处理数据,还要把数据本身作为一个五星产品。 – Hillary Mason,Fast Forward Labs的创始人
*
质量等于利润。 ——汤姆·彼得斯

管理就是把复杂的问题简单化,混乱的事情规划化。——杰克·韦尔奇

    近年来,机器学习、数据分析还有数据驱动型应用在各传统企业中红红火火开展起来。看上去,拥抱AI技术已经是必由之路。在此基础上,很多企业都已经意识到数据是其核心资产之一。随着数据的重要性呈指数级增长,企业数据管理(Enterprise Data Management)似乎成为了企业的顶级战略。伴随着计算能力的增强和计算成本下降,EDM可能包括使已经存在的数据仓库更具现代化属性以支持近实时数据;建立大数据环境以支持深度学习和分析,集中在数字能力和相关的分析能力的增长;把已存在的数据和分析移动到云端以增加组织中的分析能力。而数据治理(Data Governance)正是EDM中的核心组件,并且扮演着越来越重要的角色。
    数据治理是一个企业管理其信息和知识的能力,它可以帮助企业回答诸如:对于我们的信息我们知道多少?这些数据来自哪里?数据和公司的政策和规则是否是匹配的?数据治理可以提供一个系统化的方法管理、改善和合理运用信息,帮助企业深入了解其数据,提高其商业决策和操作的置信水平。
    本文分上下两个部分主要从三个方面讨论数据治理,并着重金融行业应用:
 数据治理的趋势
 数据治理框架和主要方法论
 数据治理技术架构和工具

一. 数据治理的趋势

 体量趋势
    数据体量增大,数据源增多,数据维度增高,这些都使得数据中会出现大量不一致性。数据治理非常需要确定和解决这个问题以避免决策和分析是基于错的数据。
 自服务趋势
    由于数据体量增大,各种数据分析和机器学习模型的使用需求增多,自服务形式的报告和数据分析的需求也会越来越多。
 监管需求
    类似欧洲的GDPR(General Data Protection Regulation) 标准的涌现和不断完善,说明数据安全、存放和如何使用变得越来越重要。
 通用业务数据语言需求
    由于多源数据、跨业务部门的数据分析和决策的需求增长,所以需要一种通用的面向业务数据语言来增加数据理解和定义的能力。
 价值趋势
    许多行业已经布局数据治理解决方案一段时间,例如健康管理、金融行业和政府。由于数据治理的投入比较大,目前这些行业都需要通过数据治理为他们带来价值和利润。所以在数据应用上的需求一直在增长。

    各企业的数据管理模式存在多种方案,但无论是传统数据仓库、数据湖还是大数据解决方案,数据治理能力都是非常重要的。它带来了主动性的数据管理。
众所周知,金融行业是具备高度严谨性和安全性的,而且金融行业的数据驱动型应用的需求比较多,价值也相对较高。所以金融行业对数据治理的要求是相对较高的。下图是金融行业数据驱动型应用的分类和应用点:
在这里插入图片描述
    上图中列出了金融行业与AI技术的主要结合点,从另外一个视角上看主要集中在风险、操作性和效率上来帮助金融服务减少风险、降低成本和提升用户体验。
    金融行业的专业壁垒比较高,个业务部门的数据各成体系,这对数据治理有非常强的挑战。另外,整合各业务部门数据需要专业化知识,在这种情况下,数据理解变得非常重要,所以跨部门且跨领域的业务数据描述语言成为了金融行业数据治理和建模的一个必要条件。笔者在本系列文章中前面的论题中曾经探讨过通用数据模型(CDM),这个组件就扮演了解决这个问题的关键角色。
    最后就是金融行业对数据的质量和安全性的要求是超过其他行业的。

二. 数据治理框架和主要方法论

 数据治理的目的

  • 减少风险和成本
  • 为数据使用建立内部规则
  • 改善内部和外部沟通
  • 提升数据的价值
  • 简化管理和操作
  • 帮助风险管理和持续优化

 数据治理的层次模型
在这里插入图片描述
如上图所示,数据治理通常可分为三个级别:战略上,战术上,操作上的。为了在企业内部高效的组织和使用数据,并和数据相关的项目紧密配合,数据治理实际上是一个不断前进迭代优化的过程。

 数据治理的三维模型
在这里插入图片描述
1) 组织:解释什么地方和谁负责(Where and Who)
2) 业务:解释数据表示什么 (What)
3) 技术:如何从技术上解决 (How)

 主要方法论
数据治理包括人、流程以及所需技术用来管理和保护企业的数据资产为了保证数据是可理解的、正确全面、可信和安全、可挖掘价值的。数据治理主要有两个主流方法论:
1) Data Management Association (DAMA) - Data Management Body of Knowledge (DMBOK)
2) Data Maturity Model
下面我们对这两种方法论的核心内容做简要介绍:

DAMA-DMBOK

DAMA-DMBOK的主要主题如下图所示
在这里插入图片描述
    Data Management Body of Knowledge 是 Data Management Associate组织所推出的数据管理原则、指导方法论和最佳实践。数据治理是此标准的核心,它主要围绕在数据管理和使用的控制、计划和监管,主要关心数据管理的战略、组织和角色、策略和标准还有问题管理和价值提升。
    数据管理架构(Data Architecture Management) 实际上是企业架构中的一个完整的部分,包括企业数据模型、价值链分析和数据架构。
    数据建模和分析(Data Modeling Design) 主要是关注数据模型设计和分析,数据库设计、建立、测试部署和数据存储的维护。
    文档和内容管理(Document & Content Management) 处理数据存储相关内容,诸如备份恢复过程、内容管理、数据提取和管理数据失效、物理存储等。这部分指导了数据的存储、保护、索引,针对于非结构化数据包括电子文档和物理记录,并且使这些数据可以结合非结构化数据以进行互操作。
    数据安全管理(Data Security Management) 指导数据的安全标准,访问控制、鉴权以及日志和审计。
    数据仓库和商业智能(Data Warehouse and BI) 提供了数据分析和报表功能支持,它包含了决策数据分析的执行、架构,性能监控和优化。
    元数据管理(Meta-data Management) 主要是指导元数据整合,控制递交以及元数据架构。
    数据质量管理(Data Quality Management) 关心数据质量的定义、监控和如何改善数据质量。
    数据库操作管理(Database Operation Management) 覆盖了数据获取、转换和移动,管理ETL过程以及数据恢复、数据保留和清除。
    主要和参考数据管理(Master & Reference Management) 集中在核心数据的管理、复制和数据亲缘关系。它提供了数据分类标准,例如外部代码、内部代码、客户数据、产品数据等。

Data Maturity Model
    DMM模型是由卡内基梅隆大学的Capability Maturity Model Integration (CMMI)协会在2014年所推出的原则化模型来指导组织机构在其全业务领域改善其数据管理实践方法。该方法论为组织提供了与其商业目标匹配的数据管理实践。
DMM尝试回答如下问题:
1) 数据管理过程的成熟度如何
2) 你的组织的数据管理在哪一个成熟度级别以及如何提高?
3) 对于你的业务来说,你如何从数据中获取最大价值或收益?
DMM定义了五个成熟度级别,如下表所示:
在这里插入图片描述
DMM模型定义了成熟度评价和流程优化的六大领域,见下表:
在这里插入图片描述
未完待续……

发布了80 篇原创文章 · 获赞 1 · 访问量 2048

猜你喜欢

转载自blog.csdn.net/weixin_43171270/article/details/102822014