漫谈数据治理之二：思想上的体系化

数据的滚雪球效应

现代数仓体系中，数据数量的高速增长已经不是什么新鲜事了，在大数据的作用被业界所认知到后，几乎所有对于业务有价值的行为，都将以数据的形式被收集。虽然这些数据很有价值，但在体现数据的价值之前，数据存储的成本已经扛不住了。据可靠统计，大公司每年数据的存储量以60%的速度在增长，5年后业界的数据规模就将达到今天的10倍，数据的滚雪球效应正在体现。

数据暴增带来的系统风险

数据暴增不仅带来了存储成本的增加，还带来了一系列无法避免的体系风险:

数据计算链路越来越复杂，带来了很高的数据质量风险，高危风险数据开始增多；
组织协作难度增加，跨部分的协作周期增加至原先的数倍，对于企业研发效能而言是一种巨大的损失；
数据孤岛逐步增多，安全合规的风险被放大，数据计算链路难以被完整的追踪。

数据治理的核心目标

数据治理不单纯是一个技术项目，而是一个体系化的机制，比较强的依赖于各个部门组织管理的能力。如果说我们一定要给数据治理工作一个核心目标，来体现做这件事情的价值，那么我们可以用“降本增效”的概念来定义它。
“降本增效”有两个方面涵义：一方面是“降本”，能够守住数据问题的底线，包括数据质量风险、数据安全风险、数据规模风险及数据成本风险，切实的降低我们在数据治理上支出的时间和金钱成本；一方面是“增效”，让数据更加便捷的被使用、更加广泛的参与到业务系统的建设中来，让数据为产品注入灵魂，带回动力和金钱的价值。

数据治理的核心规则

数据治理在技术上没有什么难题，主要是在执行落实上会有很多的困难：新人不熟悉、老人不配合，由于不直接产生收益，很多人执行的动力其实是不足的。这个时候，我们就需要强调数据治理的核心规则：”法制“。“法制”就像我们社会的组织一样，并不是说你想做就可以做，而是我给你制定一个规则，明确的告诉你什么是“法律”，“法”所规定的内容必须无条件的执行。
如果我们看业界对于数据治理所采用的方法，无一例外的都集中在建立“组织”、明确“权责”、制定“标准”这几件事上。事实上，数据治理的问题，根源只有一个：“无序”。平时我们制定各种规则，要求数据需求评审、code review、审核命名及口径标准，核心也是在于统一数据的标准，避免各方理解不同带来的分歧。
落实到日常的细节上，就是坚持两种机制：

一种是研发协作机制：产品的需求评审中不仅要有交互评审，也要有数据评审；多部门协作时，要按照专业归属的原则，将能够沉淀的数据放到一起，避免多方维护的情况；针对复杂的数据需求，学习拆解需求的方法论，沉淀可靠的数据模型。
一种是部门协作机制：跨部门会增加数据的链路长度，对于指标的统一不容易把握，因此要明确各个链路所承担的职责，例如分析部门就不要去插手数仓的工作；针对可能存在的违规和安全问题，制定一个统一的标准，通常是表级别的，有余力也可以做到字段级别。

数据治理的根本保障

有了“法制”，定义“规则”，还要有可靠的“保障”，首先我们要搞清楚三件事：

第一件事是有一份能够阐述业务概念和数据定义的文档，从业务角度讲明白数据的定义；
第二件事是有一个平台能够支持分析数据的血缘关系，做到知晓数据的来龙去脉；
第三件事是能够有一份清晰的数据流程图，对于数据的做出模型上的可靠分类。

有了这份保障，我们就可以开展两种工作：

一种是数据治理战役：虽然从思想上我们能够将数据治理的工作体系化，但是它的落地需要一系列工作的支持，像数据血缘分析，没有平台的支撑，很难做下去。因此梳理清楚有哪些前置的条件要做，把这些事当作战役来执行，不求毕其功于一役，但求能够持续的推动问题的改善。
一种是数据治理运营：由于数据治理归根结底不能是部门的长期任务，而是作为个人日常的修养习惯，所以我们还需要通过一系列的运营活动，来不断强化每个人的意识。例如数据治理标兵评选、数据问题团队公示等，让运营手段也能够参与到工作中。

晓阳的数据小站

原创文章 54 获赞 61 访问量 1万+

关注私信