数据源鉴别及记录具体操作方法

PA03 数据源鉴别及记录

过程域设定背景和目标

数据源鉴别是指对收集或产生数据的来源进行身份识别的一种安全机制,防止采集到其它不被认可的 或非法数据源(如机器人信息注册等)产生的数据,避免采集到错误的或失真的数据;数据源记录是指对 采集的数据需要进行数据来源的标识,以便在必要时对数据源进行追踪和溯源。

过程域具体标准要求解读

制度流程
——数据源管理制度规范需要包含两个方面的内容:一是要对数据采集来源的管理,包括采集源 识别和管理、采集源的安全认证机制、采集源安全管理要求等内容;二是对针对采集的数据在数据生命周期过程中进行数据溯源的管理,把数据流路径上的每次变化情况保留日志记录, 保证结果的可追溯,以及数据的恢复、重播、审计和评估等功能;

技术工具
——针对采集的数据识别和记录工具:如元数据管理、数据血缘管理等工具对采集数据进行数据采集来源的标识
——针对数据采集源(人员、终端、数据库等)识别和记录的工具:如身份鉴别机制、指纹识别等技术防止数据采集点的仿冒或伪造。

过程域充分定义级实施指南
制度流程参考:

本安全域的制度流程可与其它安全域的制度相整合,如数据源的鉴别认证相关要求可与数据采集安全管理相关制度进行整合编写;溯源数据存储可以在数据存储管理制度中。

技术工具实施参考:

数据血缘管理工具:数据从源到目的地, 经过大量的功能模块的处理和传递,呈现在业务用户面前, 很多时候需要对数据的来龙去脉进行分析 。 例如两个数据报表进行对比,结果差异很大,需要人工核对 分析指标的维度信息,分析数据指标从哪里来,处理条件是什么,最后才能分析出问题原因。 又如基础 数据表因某种原因需要修改字段时 ,需要评估其对数仓的影响。 通过元数据管理以历史事实的方式记录 每项数据的来源,处理过程,应用对接情况等,记录了数据表在治理过程中的全链血缘关系,基于这些血 缘关系信息,可以进行影响分析,以数据流向为主线的血缘追溯等功能。 血缘关系图示例:

图6:数据血缘中表级上下游关系图

图7:数据血缘中作业级上下游关系图

PA04 数据质量管理

过程域设定背景和目标

数据安全保护的对象是有价值的数据,而有价值的前提是数据质量要有保证,所以必须要有数据质量 相关的管理体系。本安全域设置目是保证对数据采集过程中收集和产生的数据的准确性、一致性和完整性。

过程域具体标准要求解读

制度流程
——定义什么是“数据质量”,数据质量的属性一般包括一致性、完整性、准确性和失效性等;
——数据质量校验方法,比如校验的层次(人工比对/程序比对/统计分析等)和校验方法(时效 性/完整性/原则性/逻辑性等)
——数据质量管理实施流程,比如在产品研流中植入数据质量控制手段,涉及需求、系统设计、 开发、测试、发布及运维;
——数据采集质量管理规范,包含数据格式要求、数据完整性要求、数据质量要素、数据源质量 评价标准;

技术工具
——对数据资产进行等级划分,具体打标规则和方法等见数据分类分级和元数据管理等安全域有更详细介绍;
——在线数据质量监控,比如针对业务数据库实时产生的数据;
——离线数据质量监控,比如针对数据仓库或数据开发平台的离线数据;
——数据质量事件处理流程,根据监控结果一旦发现数据质量异常进行及时告警和上报,并及时采取更正等处理措施。

过程域充分定义级实施指南

制度流程参考:

案例 1:《 XX集团数据质量管理规范》关键内容

  • 术语定义:数据/元数据/数据质量/数据质量问题
  • 数据质量管理规范:职责要求/度量与标准/控制流程(需求-设计-开发-测试-发布)
  • 数据订正规范:需求-方案-审批-执行-验证
  • 数据质量事件处理:定级和分类/原因分类/产生环节/处理流程
  • 数据质量审计:审计流程/审计内容
  • 违规责任:违规分级/责任和处罚

案例 2:《 xxx组织 数据质量管理讲座》关键内容

  • 数据质量问题分析
  • 数据质量方法论
  • 数据质量保证成功因素
  • 数据质量案例分析

技术工具实施参考
离线数据质量监控:对离线数据库数据表进行校验,比如表行数/主键监控/波动检测/业务逻辑等。可 以考虑基于数据库单表的记录生命周期时效性态监控,或全量表间记录同步核对监控:如上游系统A表数 据应在下游系统有B表数据对应。

案例 1: XXX离线数据监控

  • 监控粒度:针对表的分区进行配置,分区是依附于表;监控可以设定在任务粒度或SQL 粒度,任务粒度表示只有当整个任务的脚本都运行结束后监控规则才会运行;SQL粒度 则是一段SQL执行完毕若生成的表配有监控,则运行;
  • 监控规则:配置的规则是数据的正向期望,即希望数据是什么样的就怎么配置规则, 如希望数据的分组不能超过2,所以配置<=2;
  • 运行时间:将直接反映在任务的总运行时间中,监控可以在表创建15分钟后配置。
  • 触发机制:监控的分区生成或更新时;

目前离线数据质量主要有波动值检测 和固定值比较 两种校验方式。

表 4:离线数据质量校验方式

校验方法 校验逻辑
波动值校 验

1. 如果校验值的绝对值小于或等于橙色阈值,则返回正常。

2. 如果校验值的绝对值不满足第一种情况,且小于或等于红色阈值,则返回橙色报 警。

3. 如果校验值不满足第二种情况,则返回红色报警。

4. 如果没有橙色阈值,则只有红色报警和正常两种情况。

5. 如果没有红色阈值,则只有橙色报警和正常两种情况。

6. 两个都不填,则红色报警(前端会禁止两个阈值不填的情况)。

固定值比 较

1. 根据校验的表达式,计算 s opt expe c t,返回布尔值,opt 支持大于、小于、 等于、大于等于、小于等于、不等于。

2. 根据上式的计算结果,如果为 true,返回正常,否则返回红色报警。

常见的监控规则说明:

表5:离线数据质量常见监控规则设置示例

模板 级别 模板名称 说明
1 字段平均值,相比 1 天、1 周、1 个月前波动率 取该字段的平均值,同 1 天,7 天,一个月周期比较, 计算波动率,然后与阈值比较,只要有一个报警就报 警出来。
2 字段汇总值,相比 1 天、1 周、1 个月前波动率 取该字段的 sum值,同 1 天,7 天,一个月周期比较, 计算波动率,然后与阈值比较,只要有一个报警就报 警出来。
3 字段最小值,相比 1 天、1 周、1 个月前波动率 取该字段的最小值,同 1 天,7 天,一个月周期比较, 计算波动率,然后与阈值比较,只要有一个报警就报 警出来。
4 字段最大值,相比 1 天、1 周、1 个月前波动率 取该字段的最大值,同 1 天,7 天,一个月周期比较, 计算波动率,然后与阈值比较,只要有一个报警就报 警出来。
5 字段唯一值个数 去重之后的 count 数与一个期望数字进行比较,即固 定值校验。
6 字段唯一值个数,相比 1天、 1 周、1 个月前波动率 去重之后的 count 数,同 1 天,1 周,1 个月作比较, 即固定值校验
7 表行数,相比 1 天、1 周、1 个月前波动率 同 1 天、一周、一月前采集的表行数作比较,对比波 动率。
8 字段空值个数 去该字段的空值数与固定值比较。
9 字段空值个数 / 总行数 空值个数与行总数,计算得到一个比率,与一个固定 值做比较,注意:该固定值是一个小数。
10 字段重复值个数 / 总行数 重复值个数与总行数的比率与一个固定值做比较。
在线数据监控:首先根据线上业务逻辑制定产生数据的监控规则,通过接收实时消息进行相关的规则 校验,抓取线上脏数据并进行报警,并及时处理。下图为某在线业务数据质量监控平台实现流程:

图8:某在线业务数据质量监控实现流程

参考资料

数据安全能力建设实施指南 V1.0(征求意见稿)

猜你喜欢

转载自blog.csdn.net/m0_73803866/article/details/127139697
今日推荐