标签类目体系(面向业务的数据资产设计方法论)-读书笔记6

第6章 术:使用技法与重要问题

1、标签规范

数据必须转化成能解决业务问题、提升业务效率的标签才具有价值,否则就是数据负累。将数据提炼转化为标签的过程称为“标签化”,标签化需要充分考虑两大因素:

  • 是否具有数据可行性,是否有原始珊瑚橘可用于加工成标签;
  • 是否能体现业务价值,即是否为业务核心需要或者能创新业务场景。

标签化的核心是用数据思维去理解、抽象、提炼业务场景并解决业务问题。在标签化的过程中,需要有标签规范对其进行标准作业指导。

1.1 标签化

1.1.1 根目录指向标签所属的对象

根目录往往是一种较为模糊、宽泛、简单的名词或动名词。在数据物理层面往往映射为某张大宽表中的主键,这张大宽表中的信息都是对该主键对象的详细刻画和数据记录:大宽表的列即映射为标签,大宽表的行记录则对应于具体的对象在各标签属性上的具体属性值记录。

1.1.2 类目是对标签的分类

类目往往由名词构成。一个类目及其所归类的标签在数据物理层面可和某张具体表对应。多张主键相同但信息类型不同的数据表关联在一起就可以形成该主键对象下的大宽表。

1.1.3 标签是对象的属性,颗粒度到字段级

标签一般对应于某数据库中某张数据表中的某字段。

1.1.4 标签值是对象属性的具体取值

标签值一般对应于数据库中某张数据表中的某字段取值。

1.2 元标签

标签的标签称为元标签。元标签是对标签对象的属性描述,旨在采用业务化的术语,帮助前端业务更好地理解标签。

1.2.1 标签所属根目录

标签所属根目录是指该标签是哪个对象的标签。

1.2.2 标签所属类目

标签所属类目就是上文提到的标签所属一级目录、二级目录、三极目录等。

1.2.3 标签名

标签命名应遵循三大原则:避免产生侵犯隐私的误解,同一标签使用同一标签名称,同类标签使用同类语句结构。标签命名的基本规范如下:

(1)格式规范

同一个标签应归一为相同的标签名称,同类标签使用同类语句结构。

(2)用词规范

  • 不建议使用“身份证”“轨迹”“定位”“追踪”“GPS”“用户习惯”“意图”“未成年人”等词,这些词属于敏感词,容易引起不必要的关注和排查。
  • 对于算法模型产出的标签,建议标签名称前增加“预测”二字,如“预测是否有房”等
  • 不适用歧视性用于,如“土包子”“男人婆”
  • 用户爱好、意愿类的标签使用“偏好”结尾,例如“预测品牌偏好”等
  • 行为习惯类标签中可单独使用“习惯”做动词,如“习惯上网时间段”

(3)内容规范

  • 标签的数据计算内容中不应该统计未成年人的相关数据
  • 标签数据必须合法取得或获得合法授权使用,不使用非法或灰色数据信息加工标签。

1.2.4 标签描述

对标签名用一两句话进行解释,避免标签名由于用词过于简短而存在歧义、模糊、多义等问题。

1.2.5 标签加工类型

标签根据加工类型的不同可分为原始类标签、统计类标签和算法类标签

(1)三类加工标签定义

  • 原始类标签:原始数据表中就存在的字段,经过简单的规整后成为标签,即可被业务人员使用。
  • 统计类标签:原始数据通过ETL加工,例如求和、平均、正则表达式、规则运算等简单数学函数运算
  • 算法类标签:原始数据通过算法模型计算后的深加工类标签,例如经过模式识别、深度学习等算法模型运算后得出的综合评分、预测指数等

(2)三类加工标签与属性分类标签的联系

  • 原始类标签往往是基础属性类标签,eg:会员注册登记的性别、年龄、姓名、手机号码等。基本属性直接描述某一类对象的属性、特征、信息,万网雷子基本信息表,其中重要的信息项可通过简单清洗、数据裁剪等方式转化为原始类标签,为业务人员所使用的。
  • 统计类标签往往是行为习惯类标签,例如:最近一个月交易总金额等,往往是通过对原始交易记录、收藏记录、浏览记录进行ETL开发后得到。行为类数据由于明细项记录太多,通常都需要通过汇总开发后得到统计类符合标签,为业务人员所使用。
统计类复合标签的设计可参考以下设计模板,在原子标签基础上,增加维度信息去详细刻画或扩展某一类属性,即将【场景】+【时空修饰】+【计算方法】+【可修饰词】等信息联合作为修饰词。
A. 【场景】往往指的是某行为场景,例如电商交易、线下交易等。
B. 【时空修饰】指的是收缩到某时间纬度、某空间维度下对原子标签的统计,时间修饰有最近1天、最近7天等。空间修饰有华东区域、浙江区域、杭州区域、移动端等不同地域划分或渠道类型。
C. 【计算方法】指的是不同统计计算方法,常见有求和、求平均、求最大值等。
D. 【可修饰词】往往与场景密切相关,例如:“电商交易”场景下按照品类划分为“电子产品”、“服装”等。按照客户类型可划分为“VIP客户”、“新客户”等
将上述因素组合在一起,就可以生成统计类符合标签,eg:最近一个月移动端电子产品交易总金额。
  • 算法类标签往往对应于兴趣爱好、性格思维、价值评估等高级抽象类标签。因为这些高级抽象类标签没有简单办法能确认和判断具体取值,所以需要通过算法建模的方式,根据大量的基本信息和行为信息进行大数据的深度学习和智能判断。原始数据采用数据挖掘、机器学习等算法技术,预测评估得到高级特征。

(3)三类加工标签与人、物、关系下各类标签的联系

  • “人”对象的基本属性类标签往往是原始类标签,行为关系类标签往往是统计类标签;兴趣、习惯、思维类标签往往对应于算法类标签。
  • “物”对象的基本属性、功能效用、主从属性类标签往往是原始类标签;被动行为类标签一般为是统计类标签;价值评估类标签通常是算法类标签。
  • “关系”对象的人物类标签往往指向ID基本属性类标签,是一种原始类标签,用来唯一标识关系人、关系物;关系准备、关系过程类标签往往对应统计类标签;关系结果类标签对应算法评估类标签。

1.2.6 标签逻辑

标签逻辑指对 标签开发方式、加工过程、计算逻辑等的描述。

  • 原始类标签:逻辑一般表达为对a表中的m字段经过简单清洗后直接采用。
  • 统计类标签:逻辑往往是历史累计/最近N天/最近N个月/最近一次XX行为的发生频率/常发时间/常发地段/数量统计/次数统计/金额统计等。
  • 算法类标签:逻辑一般需要定义清楚,需纳入算法模型处理的重要特征项、正负样本定义或学习样本逻辑、模型选型及模型结构、模型输出结果形式及阈值分段设定、希望的模型预测结果性能指标等。

1.2.7 值标签

值字典即标签各种可能取值的枚举。

1.2.8 取值类型

取值类型即标签值的数据类型。

1.2.9 示例

举1~2个标签值示例,主要用于无法穷尽枚举的连续性数值标签或枚举项成百上千的标签,以帮助开发人员、业务人员更好地理解标签定义。

1.2.10 更新周期

更新周期一般指该指标的数据更新周期。

  • 原始类标签:标签取值不太会发生变化,可将更新周期拉长;
  • 统计类标签,可对原始数据以每1天、每7天、每月等频率更新,来设计这个标签的更新周期;
  • 算法类标签:往往设计算法模型迭代优化,因此会每季度或每半年更新一次,更新周期介于原始类标签和统计类标签之间。

1.2.11 安全等级

建议构建1~4等级的安全定级(L1~L4):

  • L1:公开标签,可对外公开,是最为开放的数据标签,安全等级最低;
  • L2:内部标签,是在企业/机构内部跨部门可直接流通、申请、使用的数据标签,安全等级较低;
  • L3:保密标签,企业内部跨部门使用需要申请授权,批准后才能使用的标签,安全等级较高;
  • L4:机密标签,是企业/机构内部少数人才可以使用的标签,且不可传播,安全等级最高。

各企业/机构可根据自身实际情况,对L1~L4级别的标签设置不同的申请、操作、使用权限。

1.2.12 标签对应的物理存储信息

标签需要与底层物理表映射,才能在生产数据服务时进行真实数据流动。对每个标签登记好其所映射的物理表名、字段名,以保障后期标签需要查找问题或治理优化时,可快速定位到相应的物理路径及真实的开发逻辑。

1.2.13 标签负责人

需要登记对该标签负责的人员名单,以便业务人员对标签有疑问、追溯时快速定位到相关人员,快速得到答案。

1.2.14 完成时间

完成时间指标签最近一次逻辑确认开发完成的时间,或算法类标签最近一次稳定建模运行的版本时间。

2、组合标签

组合标签按照组合复杂度可分为两个层级:

2.1 同一对象下的标签组合

包括单个标签的取值处理加工、多个标签的取值处理加工。加工方式包括采用正则表达式、数学运算符、数据函数等各种统计运算。

2.2 不同对象间的标签组合

2.2.1 跨对象标签组合设计步骤

  • 确定业务需求中的对象
  • 设计与条件相关的“对象”标签、涉及多个对象
  • 将标签拆分到最细
  • 将基础标签配置成组合标签。

2.2.2 跨对象标签组合设计的3个注意点

(1)始终记住标签和数据结果是不一样的

标签是基础、可复用的数据资产,而一般业务的数据结果需求其实是对数据服务的需求。数据服务往往由相关的标签+对标签处理操作的过程组成。

(2)找出两个对象的关系标签非常重要

两个对象的标签需要通过关联标签合成一个标签,实现对象的跨越。

(3)标签设计过程与标签使用过程是逆向过程

在复杂数据应用场景中,标签设计过程是从业务需求结果倒推、拆解到基础标签;而标签使用过程是从最初的基础标签操作到业务需求结果产出为止。

3、如何使用标签

3.1 什么是平台级复用

数据中台的核心要义是提升可复用性,降低业务试错成本,最大程度解放业务人员的能动性和积极性。在系统复用层面有4中层级:

  • 最初级【代码级复用】:从现有的代码中找出可复用的部门进行修改、然后复用。这种复用是最浅层的,坑你会有代码迁移、使用出错等问题。
  • 第二级【组件级复用】:将满足某一功能需要的常用代码汇总会封装成一个组件,对这个组件的使用是可复用的。技术中间件可算作组件级复用。
  • 第三级【产品级复用】:某些产品具有通用能力且适用性较广,封装完毕后留有适配接口,就可实现整个产品的复用。
  • 最高级【平台级复用】:各种组件、产品等都以生态链的方式完整存在,在这个平台中,系统开发者可通过搭积木的方式选择所需的积木模块(可复用单元),快速拼装成最终的技术系统。

3.2 平台级复用的标签使用方式

3.2.1 标签的自由选择

标签是数据资产层面的概念,是数据信息的最小单元,将数据用标签封装后,只需要每次在标签门户/标签集市中选择所需的标签,即可进入使用和设置环节,二不用每次都进行查表、读数、编写代码调取数据表等操作。

3.2.2 标签的使用配置

服务组件有两大特性:

  • 组件工具本身不含数据,需要通过第一步的标签选择,将标签数据表自动同步或主动导入这些产品中;
  • 各类操作可通过可视化界面方式配置、拖拽,基本实现零代码或低代码开发。

通过以上两步——标签的自由选择及服务组件的零代码配置,就可以通过平台级复用方式完成数据服务/数据应用系统的开发。这种使用标签的方式才能给业务侧赋能:极大提升标签使用效率,充分优化标签质量,建立数据端和商业端的价值联系。

3.3 什么是服务组件、数据服务、数据应用系统

在企业大规模的数据使用中,标签必须配合服务组件使用,才能最大程度发挥数据价值和保障数据服务的稳定性。

3.3.1 服务组件

服务组件是某种数据功能的工程化封装,一般提供交互界面方式实现导入或关联数据标签、服务功能设置等操作,输出方式有两种:

  • 生成API形式的数据服务,适用于与复杂系统对接或界面、系统定制要求较高的情况;
  • 生成数据应用系统,直接带有简单的交互界面,可供业务方端到端地直接使用,简单明了。

3.3.2 数据服务

数据服务是指铜鼓API形式提供某种数据功能,以满足业务系统调用所需。

  • 使用灵活,可由多个数据服务API组合成一个数据应用系统;
  • 展示灵活,可将API与各种可视化组件对接,以满足业务侧交互方面的独特需求。

3.3.3 数据应用

数据应用指向业务侧提供带交互界面的数据功能组合,是数据应用结果的系统呈现。

4、标签怎么运营

4.1 标签的全生命周期运营

4.1.1 标签设计

数据资产设计师根据业务调研、数据调研等前期工作开展标签设计工作,产出标签类目体系架构图和标签设计文档,包括标签对象、类目体系、标签名、标签加工类型、标签逻辑、值字段、取值类型、示例、更新周期等元标签信息。

4.1.2 标签开发

标签设计完成后,按照加工类型对标签分类,然后提交给数据开发工程师和算法工程师,由他们进行各类标签的开发工作。原始类和统计类标签交由数据开发工程师完成,算法类标签交由算法工程师完成。在标签开发完成后,由数据开发工程师补录完整标签的物理存储信息,如表名、字段名、负责人、完成时间等,完成标签向数据层的映射。

4.1.3 标签上架

标签开发完成并补充完整元标签信息后,需要将标签在标签管理系统中上架。标签上架后,才能通过标签门户开放、展示给各端业务人员查看、咨询、使用。在此过程中,系统会根据标签的安全等级、部门角色等信息来确定不同账号的数据查看、申请使用权限。权限内容包括可见标签集范围、标签详情信息范围、可申请标签集范围等。

4.1.4 标签使用

标签只有被业务使用才能发挥价值。标签的使用有以下三种方式:

  • 数据同步:指将加工好的标签数据直接同步到业务系统的数据库中,一般只有核心业务才会这样使用。
  • 数据应用:指把标签功能封装成产品交互形态供外部使用,技能跟踪标签调用情况,又能评估标签使用效果。这种方式与业务方绑定较深,由于业务人员使用习惯各不相同,业务制定需求较多,通用产品难以满足众多业务前端的饿个性化需求,扩展性有限。
  • 数据服务:将标签使用方式疯长成API形式对接到业务系统,业务人员既可以灵活使用标签,有不需要直接复制标签数据,且调用情况容易跟踪和监控。数据服务时标签使用的理想方式,它最才能体现和发挥标签的广泛价值。在使用标签过程中需要监控其调用情况,来审计稳定性、安全性和规范性。

4.1.5 标签治理

  • 血缘信息:标签生产的路径即血缘,是根据历史事实记录记录每项标签来源、处理过程、应用对接情况等。
  • 元标签规范:每个标签都需要登记有业务类和技术类元标签信息,元标签管理需要形成统一的规范体系,对标签进行统一的信息登记和检查。
  • 质量管理:标签质量管理要贯穿标签从设计、使用到归档等的全过程,其核心是制定一套标签指令管理规则,遵循标签质量标准,并配备可视化的标签质量监控平台、标签交叉验证工具等技术支撑。
  • 安全管理:“三横三纵”的标签安全保障体系。“三纵”指安全理念及整体策略:首先,标签的使用必须符合国家大数据相关政策法规;其次,必须保障所有客户所有数据资产安全;最后,在具体使用过程中,要评定标签敏感性登记,制定相应的安全管理策略和安全实现方案。“三横”指的是采取核心方案:其一是三重加密机制,其二是可用不可见标签安全体系,其三是由所有ID生成的一个核心ID。

4.1.6 标签营销

标签开发完成后,对外需要将标签价值进行梳理 、宣传和推广,让业务部门人员尽快了解到各类标签信息。

企业必须从标签价值实现为核心,不断地运营标签全生命周期,通过价值驱动和倒推标签治理优化、标签使用性能稳定、标签共享上架、标签开发效率提升、新标签的扩充、标签的源数据扩展等环节目标,才能最终实现数据资产价值持续稳定的增长。

4.2 标签运营环节中的责任单位

  • 企业构建标签类目体系初期以及需构建企业层面统一的标签时,建议由数据部门来统一设计、开发、治理、运营标签。
  • 各业务部门都形成了一定深度的数据思维并掌握了标签构建方法后,可将标签设计和标签开发的权限开放给业务部门即业务部门的数据团队。
  • 各业务端设计的标签经开发完成后,可上架为私有标签,仅供自身业务部门使用。
  • 企业数据部门和各业务部门都可以设置自己所拥有标签的开放程度:01级为公共开放且其他部门使用时不需要本部门审核;02级为公开开放但其他部门使用时需要本部门审核;03级为定向开放且定向部门使用时不需要本部门审核;04级为定向开放但定向部门使用时需要本部门审核。
  • 标签的运营团队必须审核标签命名是否规范,标签是否适合公开,标签信息是否提供完整等;通过统一的监控后台或反馈机制判断标签质量,做出治理优化的决策;采用运营手段,以价值为导向,实现标签全生命周期的平稳发展,并形成业务强参与度的运营生态。

4.3 标签的运营闭环

  • 第一环是设计环,包括标签的设计开发和上架。在这一环节中,数据资产设计师不仅为当前业务场景需要谁和开发标签,也为将来可能的场景有目的性、前瞻性地设计标签。
  • 第二环是使用环,包括标签的选择、申请、调用。在整个环节中,业务人员通过第一环节中设计开发好的标签开放集中选择合适的标签并申请使用,同时支持业务人员根据实际需求新提所需标签。
  • 第三环是管理环,包括对标签基本信息的登记、使用情况的评估、提升使用效果的标签优化等。

5、标签质量怎么看

标签的质量可从三大维度上评估:数据来源、标签加工过程和标签使用过程。

5.1 数据来源类相关指标

  • 数据源安全性:数据源数据的安全程度,是否合法取得、是否得到用户授权许可等都会间接影响标签的数据安全性。
  • 数据源准确性:数据源数据的准确性,是第一现场取得,间接获取,还是边缘推算,都与标签最终的准确性有关。
  • 数据源稳定性:数据源数据产生的稳定性,包括产生周期的稳定性、产生时段的稳定性、产生数据量的稳定性、产生数据格式的稳定性、产生数据取值的稳定性等。
  • 数据源时效性:数据源数据从第一现场产生到传输录入的时间间隔,行为类数据时效性会间接影响标签准确性。
  • 数据源全面性:数据源数据是否全面,各个层面的数据是否都能整合打通,进行全域计算。

5.2 标签加工过程相关指标

  • 标签测试准确率:标签在建模、测试过程中得到的准确率,是一种类似试验性质的初始准确率,供参考。
  • 标签产出稳定性:标签每天计算、加工、产出时间的稳定性,能否准时产出也是业务人员使用标签时重点考虑的指标。
  • 标签生成时效性:标签生成的时间间隔,时间间隔越短,时效性越强。时效性对实时类标签尤为重要。
  • 标签取值覆盖量:具有某标签的有效标签值的对象个体数量。对于每个对象个体的数据完善程度不同,同一个标签能覆盖到的对象群体不同。
  • 标签完善度:标签有很多元标签信息,即标签的“标签”,这些元标签信息的完善程度是业务使用的可用性指标。
  • 标签规范性:标签的元标签信息是需要按照规范格式登记的,包括现有标签的元数据信息是否合规以及合规程度如何。
  • 标签值离散度:标签取值是集中在某个数值区间或某几个取值,还是呈相对凭据分布。离散度没有绝对的好坏,一般场景下离散度越高越好,说明能找出具有不同特征值的各类群体。

5.3 标签使用过程相关指标

  • 标签使用准确率:标签在使用过程中,经过业务场景验证、反馈得出的标签准确率,是一种较为真实的准确率判断。
  • 标签调用量:标签平均每日的调用量、今日当前累计调用量、历史累计调用量、历史调用量峰值都可参考的调用量信息,反映该标签被业务真是调用的次数。
  • 标签受众热度:标签被多少业务部门、业务场景、业务人员申请使用,可以反映标签的适用性、泛化能力。
  • 标签调用成功率:某标签的真实使用场景中,调用成功次数(历史总调用次数-调用失败次数)占总调用次数的比例。
  • 标签故障率:某标签在真实使用场景中,累计故障时长占总服务时长的比例。
  • 标签关注热度:对标签在标签门户中被搜索、浏览、收藏、咨询、讨论等的热度进行综合计算得出的热度。
  • 标签持续优化度:该标签是持续被开发人员迭代优化,还是尚处于一次开发阶段,反映了该标签被反复锤炼、持续优化的程度。
  • 标签持续使用度:标签被业务申请使用后,平均被调用时长、频率及推广情况,反映了该标签是否真正为业务带来价值。
  • 标签成本性价比:将标签加工过程中产生的数据源成本、计算成本、存储成本与其为业务带来的价值、调用量、应用重要程度等进行综合计算,得到的性价比指标,是一个纵观成本和价值的平衡参数。

6、标签成本怎么看

6.1 标签数据源采集与存储成本

6.1.1 信息化建设

信息化建设的结果中,标签开发需要用到的源数据的存储成本是标签采集与存储成本的来源之一。

6.1.2 数据埋点

数据埋点是一种获取线上系统数据的方式。数据埋点所获得的日志数据存在大量的低价值信息,因此需要采用算法技术对这些行为数据进行建模和挖掘,找出其中真正有价值的数据。根据标签需要进行数据埋点的技术投入成本和埋点数据的存储成本是标签采集与存储成本的来源之二。

6.1.3 数据补录

对于一些线下的、核心信息系统之外的数据信息,可通过不录系统或在现有系统中补录信息的方式进行补充。根据标签需要进行数据补录的技术投入成本和补录数据的存储成本是标签采集与存储成本的来源之三。

6.1.4 数据爬虫

通过爬虫技术,企业可爬取自身经营、业务、知识领悟之外的信息,充分利用已公开的公共智慧。根据标签需要进行数据爬虫的技术投入和爬虫数据存储成本是标签采集与存储成本的来源之四。

6.1.5 数据收购

根据标签需要进行数据收购的资金成本和收购数据的存储成本是标签采集与存储成本的来源之五。

6.1.6 数据合作

共享的数据往往是统计结果数据,企业无法获得详细的数据记录,只能将其作为一些信息的补充。根据标签需要进行数据合作的投入成本和合作数据的存储成本是标签采集与存储承恩的来源之六。

6.2 标签设计与加工成本

标签设计环节包括数据调研摸底、行业业务场景研究、标签类目体系及具体标签设计等,这些过程中产生的成本基本上为人力成本;标签加工环节包括数据同步、数据清洗、数据开发、数据治理等子环节,会产生人力成本、技术投入成本、数据计算存储成本。

6.3 标签使用与营销成本

标签的使用成本主要有计算资源消耗成本、人力成本和标签信息系统开发运维成本。其中占比比较大的是标签使用过程中耗费的计算资源成本。不同计算引擎所消耗的数据存储、计算成本都不相同。一般场景越复杂,性能要求越高,所需的计算引擎成本越高。

通过对采集存储、设计加工、使用营销等过程的成本梳理,并追溯、分摊到每个标签,就可以计算出每个标签或标签服务的成本。这对标签及标签服务的商品化运营非常重要。

7、标签价值怎么看

7.1 标签价值的分类

7.1.1 企业内部经营管理优化

将标签用于数据分析、监控预警等数据应用中,能够帮助企业经营者更好地分析其经营过程中核心环节的状况,是否出现异常报警并尽快处理。

7.1.2 企业对外的数据业务赋能

标签配合相应的数据引擎生成数据服务接口或数据应用,企业对外提供这些数据服务或数据应用,作为一种新型的数据服务。这种数据业务会为企业带来业务收入。

7.1.3 合规的数据交易产业

在数据交易过程中,保障数据的合规性、安全性和公允性是重中之重。如果能探索出一种新机制,标签服务的使用者会付费使用标签,那么标签价值就可以通过平台计量的服务使用费计算,并最终实现逆向追溯。

7.1.4 普惠民生的社会价值

除了企业之外,政府、机构等也需要数据资产赋能。很多城市正在建设的数字大脑、智慧城市等都属于大数据支持模块。政府、机构等通过大量的数据可对现状进行合理评估,对发展态势和风险进行预判和预警,并做出整体的规划。

7.2 标签价值的衡量方式

7.2.1 收益法

在企业内部经营管理和对外的数据业务赋能过程中,可采用收益法来衡量标签服务价值。对内减少了多少成本支出,对外扩增了多少业务收入,这些收益的金钱量化都㐓认为是标签服务为企业带来的具体价值。

7.2.2 市场法

在合规的数据交易产业中,标签服务课由一定的生产提供方报价,消费方根据实际所需进行还价,或者采购价格更低的其他标签服务。

7.2.3 成本法

对于向普通民众开放的数据服务,政府、机构、企业累计投入了多少资金来设计、建设和持续运营,这种持续投入的数据建设成本可作为标签服务的价值衡量。

8、标签方法论与数仓建模的异同

标签方法论与数仓建模都探究如何对数据资产进行提炼、操作、加工,都是数据资产构建方法,但是标签方法论更关注企业全局数据的整理梳理、类目化组织、面向业务端的数据资产复用,而数仓建模则侧重数据治理、数据规范、按领域建模,通过领域建模看到的是某个业务场景已有数据的切片,解决当前数据问题。

猜你喜欢

转载自blog.csdn.net/baidu_38792549/article/details/126664279