数据脱敏（转载网络安全学院）

C.1 概述

金融业机构在开展金融数据安全防护工作过程中，对敏感信息的保护是其中尤为重要的环节。金融业机构类型众多且数量庞大，随着我国信息化与数字化建设进程的不断加快，金融产品与服务的形式和内容也愈加多样。金融业机构在业务开展和日常运营过程中，积累了大量的数据，这些数据大多直接关联金融消费者的财产和数据安全，甚至关乎国家经济建设与社会稳定，具有较强的敏感性。因此，对敏感信息的保护已成为金融数据安全应用过程中需首要解决的问题。金融敏感信息通常包括国家规定的敏感信息、业务数据的敏感信息，以及个人金融信息的敏感信息等，在实际应用过程中，需要根据实际业务场景、数据安全级别等因素，选择适当的数据脱敏方式防止敏感信息泄露。

C.2 数据脱敏的定义

数据脱敏是指从原始环境向目标环境进行敏感数据交换时，通过一定的方法消除原始环境中数据的敏感性，并保留目标环境业务所需的数据特性或内容的数据处理过程，常用数据脱敏方法技术见表 C.1。本附录中数据脱敏主要针对金融行业中的个人金融信息和金融重要数据，其中个人金融信息的脱敏是金融领域隐私保护的一种常见的方式，金融业机构借助数据脱敏技术，消除个人金融信息敏感性，有效保证个人金融信息在企业数据分析、监管协作、开放测试等过程中的安全性。

C.3 数据脱敏基本原则

数据脱敏要确保消除数据的敏感性，尽可能平衡数据脱敏花费的代价、使用方的业务需求等多个因素。所以，为了确保数据脱敏的过程及代价可控，得到的结果正确且满足业务需要，在实施数据脱敏时，遵循以下原则：

a) 有效性：指数据脱敏过程的有效性，原始数据经脱敏处理后，原始信息中包含的敏感信息已被消除，无法通过处理后的数据得到敏感信息，防止使用非敏感数据进行推断、重建、还原敏感原始数据。

b) 高效性：指数据脱敏过程的高效性，通过借助计算机程序实现脱敏自动化，并可重复执行，在不影响有效性的前提下，平衡脱敏的力度和代价，将数据脱敏工作控制在一定的时间和经济成本内。

c) 可重现：即相同原始数据在配置相同算法和参数的情况下，脱敏后的数据具有一致性，随机类的算法除外。

d) 关联性：对于结构化和半结构化数据，在同一数据表中某字段与另外字段有对应关系，如果脱敏算法破坏了这种关系，该字段的使用价值将不复存在，通常在进行数据统计需要参考量的情况下，数据的关联性较高。

e) 可配置性：指数据脱敏过程的可配置性，由于不同场景下的安全需求不同，数据脱敏的处理方式和处理字段也不尽相同，因此需通过配置的方式，按照输入条件不同，生成不同的脱敏结果，从而可按数据使用场景等因素为不同的需求提供不同的脱敏数据。

C.4 数据脱敏方法技术

C.4.1 泛化

泛化是指在保留原始数据局部特征的前提下使用一般值替代原始数据，具体的技术方法包括但不限于：

a) 截断：直接舍弃业务不需要的信息，仅保留部分关键信息，数据截断后的结果往往无法较好地保持原有业务属性，因此在对数据截断时，根据数据特点酌情选择截断位数。

示例：1) 将手机号码 12300010001 截断为 1230001。

2) 把身份证号码 123184198501184115 截断为 198501184115。

b) 偏移取整：按照一定粒度对数据进行向上或向下偏移取整，可在保证数据一定分布特征的情况下隐藏数据原始属性，偏移取整的方法主要通过舍弃一定的精度来保证原始数据的安全性，可一定程度上保持数据业务特性上的分布密度，适用于粗略统计分析的场景。

示例：1) 将时间 2020032218：08：19 按照 10 秒钟粒度向下取整得到 2020032218：08：10。

2) 将金额 5123.62 元按照百位粒度向上取证得到 5100 元。

c) 规整：将数据按照大小规整到预定义的多个档位，规整的方法尽管保持了一定的业务含义，但是很大程度上会丧失数据原有的精度，可根据实际的业务需要选择泛化技术的实现方法。

示例：1) 将客户资产按照规模分为高、中、低三个级别，将客户资产数据用这三个级别代替。

2) 客户产生的业务费用按照金额多少分为高、中、低三个级别，将客户业务费用用这三个级别代替。

C.4.2 抑制

抑制是指通过隐藏数据中部分信息的方式来对原始数据的值进行转换，又称为隐藏技术。

a) 掩码屏蔽：指保留部分信息，对敏感数据的部分内容用通用字符 (如 “X、*” 等) 进行统一替换，从而使得敏感数据保持部分内容公开，但对信息持有者来说易于辨别。

示例：1) 将手机号码 12300010001 经过掩码得到 123 * * * * 0001。

2) 把身份证号码 123184198501184115 经过掩码得到为 123184000000004115。

b) 个人金融信息在通过计算机屏幕、客户端应用软件等界面展示过程中，采取信息掩码屏蔽或截

示例：将银行卡号码 1234701202106563320 经过掩码得到 1234 * * * * * * * * * * * 3320。

C.4.3 扰乱

扰乱是指通过加入噪声的方式对原始数据进行干扰，以实现对原始数据的扭曲、改变，扰乱后的数

a) 重排：将原始数据按照特定的规则进行重新排列，对于跨行数据，采用随机互换来打破其与本

1) 采用按照一定顺序打乱数据位序等方式进行重排。

2) 重排可在相当大范围内保证部分业务数据信息，如有效数据范围、数据统计特征等，使脱敏后数据看起来跟原始数据更一致，与此同时也牺牲了一定的安全性，一般重排方法用于大数据集合且需要保留待脱敏数据特定特征的场景。对于小数据集，重排形成的目标数据有可能通过其他信息被还原，在使用的时候需要特别慎重。

b) 加密：对脱敏数据进行对称加密算法、非对称加密算法等常规加密算法处理，使外部用户只能看到无意义的加密后的数据，同时在特定场景下，可提供解密能力，使具有密钥的相关方可获得原始数据。

1) 采用对称或非对称加密算法对数据进行加密存储。

2) 加密其安全程度取决于采用哪种加密算法，一般根据实际情况而定，这种方法的缺点是：加密本身需要一定的计算能力，对于大数据集来源会产生很大资源开销。一般加密后数据与原始数据格式差异较大，“真实性” 较差。

c) 替换：按照特定规则对原始数据进行替换，常见的替换方式包括常数替换、查表替换、参数化替换。

1) 常数替换：所有敏感数据都替换为唯一的常数值，具有不可逆性。

2) 查表替换：从中间表中随机或按照特定算法选择数据进行替代。

3) 参数化替换：以敏感数据作为输入，通过特定函数形成新的替换数据。

d) 散列：即对原始数据取散列值，使用散列值来代替原始数据。

1) 使用散列函数对客户密码等信息进行计算得到散列值，以此替换原始数据。

2) 为了保证散列的安全性，避免采用弱安全性散列函数如 MD 5、SHA 1，对于原文空间有限的散列，实际的应用场景中通常采用加入随机因子的方法提高安全性，散列函数常用于密码等敏感信息存储的场景。

e) 重写：参考原数据的特征，重新生成数据，重写与整体替换较为类似，但替换后的数据与原始数据通常存在特定规则的映射关系，而重写生成的数据与原始数据则一般不具有映射关系。

f) 固定偏移：将数据值增加 n 个固定的偏移量，隐藏数值部分特征。

g) 局部混淆：保持前面 n 位不变，混淆其余部分。

h) 唯一值映射：将数据映射成一个唯一值，允许根据映射值找回原始值，支持正确的聚合或者连接操作。

i) 均化：针对数值性的敏感数据，在保证脱敏后数据集总值或平均值与原数据集相同的情况下，改变数值的原始值，这种方法通常用于成本表、工资表等场合。

C.4.4 有损

有损是指通过损失部分数据的方式来保护整个敏感数据集，适用于数据集的全部数据汇总后才构成敏感信息的场景，金融后台系统不具备开放式查询能力，根据业务场景需要采用合适的有损技术可达到限制批量查询的效果。具体的有损技术方法包括但不限于：

a) 限制行数：仅仅返回可用数据集合中一定行数的数据，多应用于不具备开放式查询能力的后台系统、严格限制批量查询等场景。

b) 限制列数：仅仅返回可用数据集合中一定列数的数据，可应用于人员基本信息查询时，限制或禁止返回的数据集中包含某些敏感列。

C.5 数据脱敏应用分类

C.5.1 概述

数据脱敏根据数据脱敏的实时性和应用场景的不同，分为动态数据脱敏和静态数据脱敏。静态数据脱敏一般用在非生产环境，将敏感数据从生产环境抽取并脱敏后用于培训、分析、测试、开发等非生产环境。动态数据脱敏一般用在生产环境，将敏感数据实时进行脱敏后用于应用访问等生产环境。

C.5.2 静态数据脱敏

静态数据脱敏旨在通过类似 ETL 技术的处理方式，按照脱敏规则一次性完成大批量数据的变形转换处理，静态脱敏示意图见图 C.1. 静态脱敏通常会在将生产环境中的敏感数据交付至开发、测试或者外发环境时使用，在降低数据敏感程度的同时，能够最大程度上保留原始数据集所具备的数据内在关联性等可挖掘价值。

静态数据脱敏主要特点：

a) 适应性，即可为任意格式的敏感数据脱敏。

b) 一致性，即数据脱敏后保留原始数据字段格式和属性。

c) 复用性，即可重复使用数据脱敏规则和标准，通过定制数据隐私政策满足不同业务需求。

C.5.3 动态数据脱敏

动态数据脱敏旨在通过类似网络代理的中间件技术，按照脱敏规则对于外部申请访问的数据进行即时处理并返回脱敏后结果，动态脱敏示意图见图 C.2。动态脱敏通常会在数据对外提供查询服务的场景中使用，在降低数据敏感程度的同时，最大程度上降低了需求方获取脱敏后数据的延迟，请求实时产生的数据也能即时得到脱敏后结果。动态数据脱敏主要特点如下：

a) 实时性，即能够实时地对用户访问的敏感数据进行动态脱敏、加密和提醒。

b) 多平台，即通过定义好的数据脱敏策略实现平台间、不同应用程序或应用环境间的访问限制。

c) 可用性，即能够保证脱敏数据的完整，满足业务系统的数据需要。

C.6 数据脱敏应用场景

数据脱敏的应用场景主要分为技术场景和业务场景，技术场景主要包括开发测试、数据分析、数据科学研究、生产、数据交换、运维等场景，业务场景包括但不限于信贷风险评估、骗保识别、精准营销、消费信贷等场景，常用数据脱敏应用场景见表 C.2。

C.7 隐私数据脱敏方法参考

C.7.1 联系人姓名的脱敏

联系人姓名的脱敏方法示例见表 C.3。

C.7.2 企业户名的脱敏

企业户名的脱敏方法示例见表 C.4。

C.7.3 身份证号码的脱敏

身份证号码的脱敏方法示例见表 C.5。

C.7.4 护照号码的脱敏

护照号码的脱敏方法示例见表 C.6。

C.7.5 地址的脱敏

地址的脱敏方法示例见表 C.7。

C.7.6 车牌号码的脱敏

车牌号码的脱敏方法示例见表 C.8。

C.7.7 联系电话 (固定电话) 的脱敏

联系电话 (固定电话) 的脱敏方法示例表 C.9。

C.7.8 联系电话 (手机号码) 的脱敏

联系电话 (手机号码) 的脱敏方法示例见表 C.10。

C.7.9 日期时间的脱敏

日期时间的脱敏方法示例表 C.11。

C.7.10 电子邮箱的脱敏

电子邮箱的脱敏方法示例见表 C.12。

C.7.11 密码的脱敏

密码的脱敏方法示例见表 C.13。

C.7.12 金融账号的脱敏

金融账号的脱敏方法示例表 C.14。

C.7.13 银行卡号码的脱敏

银行卡号码的脱敏方法示例见表 C.15。

C.7.14 存折账号的脱敏

存折账号的脱敏方法示例见表 C.16。

C.7.15 增值税税号的脱敏

增值税税号的脱敏方法示例见表 C.17。

C.7.16 增值税账号的脱敏

增值税账号的脱敏方法示例见表 C.18。
原文作者：网安资讯
转自链接：https://www.wangan.com/docs/7842

数据脱敏（转载网络安全学院）

猜你喜欢