嘘!完美保护隐私的AI,存在吗?

全文共4469字,预计学习时长12分钟

图源:Unsplash

去年,一部叫《爱,死亡和机器人》(Love, Death &Robots)的剧火了。每一集都是独立的动画,我们看到了AI机器人的强大能力,但也不得不反思AI数据在现实中的隐私问题。

图源:zcool

是什么?我们又该如何拥有?

AI应用的边界、隐私数据保护的度在哪,现在还是未知。社交活动数据、零售数据、金融行为数据、医疗健康、园区管理等数据等被广泛用于AI各种应用场景,的确也朝着为人类带来更多服务的方向发展,但是对于这样的涉及隐私数据利用的监管仍处于探索阶段。

目前,数据隐私被称为“未来十年最重要的问题”,并且由于诸如欧盟的《通用数据保护条例》(GDPR)和《加州消费者隐私法案》(CCPA)之类的立法而成为焦点。公司、开发人员和研究人员都在努力遵循相关法律法规。

特别值得注意的是,“从设计着手保护隐私”是《通用数据保护条例》不可或缺的一部分,很大可能在未来十年只会变得愈加普及。使用隐私保护技术时,相关立法突然变得不那么困难了,同样,确保数据安全以维护用户信任也变得简单了。

数据隐私是训练和测试AI模型的核心问题,对于那些依赖敏感数据进行训练和推断的AI模型更是如此。然而,目前为止,何为完美保护隐私的AI,尚未有任何已发布的指南可供参考。现介绍实现完美保护隐私的AI所需的四个支柱,并讨论哪些技术可以帮助建立每个支柱。隐私保护机器学习子领域发展迅速,上述主张的支撑就来自该领域最新的研究。

完美保护隐私的AI所需的四个支柱

完美保护隐私的AI所需的四个支柱

在研究过程中,我们确定了隐私保护机器学习的四个支柱。这四个支柱是:

1.训练数据隐私:保证恶意行为者无法对训练数据进行反向工程。

2.输入隐私:保证包括模型生成器在内的其他方都看不到用户的输入数据。

3.输出隐私:保证除了提供数据用于推断的用户外,任何人都看不到模型的输出。

4.模型隐私:保证模型不会被恶意方窃取。

前3个支柱旨在保护数据生成器,而第4个支柱是为了保护模型构造器。

训练数据隐私

尽管从明文(密码学术语:指未加密的文字)输入和输出数据中收集有关训练数据和模型权重的信息可能要更为困难一些,但最新研究显示,重建训练数据和对模型进行逆向工程所带来的挑战并非人们所想的那样严峻。

来源: https://xkcd.com/2169/

证据

在[1]中,Carlini和Wagner计算了生成序列模型(例如,字符语言模型)在训练集中记住稀有信息的速度。Carlini和Wagner在Penn Treebank上训练一种字符语言模型,向模型插入一次“秘密”:“随机数是ooooooooo”,其中ooooooooo是一个(假的)社会保障号码。两人演示了他们隐藏在Penn Treebank数据集(PTD)副本中的秘密是如何暴露的。他们在5%的PTD上训练字符语言模型,计算了网络的记忆量。当测试集损耗最低时,记忆量达到峰值。这一峰值与秘密暴露的峰值相吻合。

指标

那么,如何量化对模型输出进行逆向工程从而得到秘密的可能性呢?[1]规定了一个指标,称为曝光度:

给定金丝雀为s [r],模型参数为θ,随机空间为R,则曝光s [r]为

其中,排名(rank)是指根据输入确定模型的复杂性时,真实秘密(即金丝雀)在所有可能秘密中的索引。索引越小,序列出现在训练数据中的可能性就越大,因此目标是为了最大程度地减少秘密的暴露,而这正是Carlini和Wagner使用差分隐私梯度下降实现的(请参见下面的解决方案)。

[2]中提出了另一种曝光度指标,作者计算了通过不安全通道发送隐藏私有数据时泄漏的信息量。尽管本文更多地在分析输入数据隐私,但仍可将[2] 提出的指标与[1]中的指标进行比较,从而进行研究。实际上,Carlini和Wagner提出了两种隐私指标。一种用于人口统计变量(例如,情绪分析和博客帖子主题分类),另一种用于命名实体(例如,新闻主题分类)。这两个隐私指标具体如下:

1.人口统计变量:“1- X,其中X是攻击者预测性别和年龄准确度的平均值。”

2.命名实体:“1-F,其中F是在z中的二进制变量集合上计算的分数,这些变量说明了输入示例中存在命名实体”,其中“z是包含在[自然语言文字]中隐私信息的向量。”

查看证据时,请务必牢记,AI的子领域(即保护隐私的AI)是一个全新的领域,因此可能存在许多尚未分析到甚至还未想到的潜在漏洞。

解决方案

图源:Unsplash

针对训练数据记忆问题,主要提出了两种解决方案,不仅可以保护隐私,还可以提高机器学习模型的通用性。解决方案如下:

1.差分隐私随机梯度下降(DPSGD)[3,4]:差分隐私最初创建是为了在不透露数据集中任何个人信息的情况下对数据集进行概括,但已经适当修改了该理论,使之适用于深度学习系统中训练数据隐私的保护。

想了解有关机器学习中差分隐私使用的深入讨论,请阅读对Parinaz Sobhani博士的采访(他是加拿大著名的风险投资公司之一Georgian Partners机器学习方面的负责人)。

2.Papernot教授提出的PATE框架 [5]:Papernot教授创建PATE框架作为DPSGD的替代方案,更为直观。可以将PATE框架视为一种在数据集的iid子集上训练多个模型的集成方法和任务。可以推断,如果大多数模型对输出结果意见一致,则证明输出不会显示有关训练数据的任何隐私信息,因此可以共享。

输入和输出隐私

为了遵循完全保护隐私AI的四大支柱,除用户之外,任何一方都无法看到输入的用户数据和通过该数据推断得出的结果模型输出。保护用户数据隐私不仅对用户本身有利,对处理潜在敏感信息的公司也有利。隐私与安全息息相关。保障适当的安全性意味着数据泄漏的可能性要小很多,这则有利于促成理想的情况:不会失去用户信任,也不会因数据管理不当而受到罚款。

证据

必须确保隐私数据不会:

· 被滥用(如《纽约时报》报道的位置跟踪)

· 由于黑客入侵而落入坏人之手,或

· 习惯了执行出于用户意料或未经用户明确同意的任务(例如Amazon承认员工偷听用户与旗下语音助手Alexa的对话)。

虽然在数据传输和存储时(若由某一公司负责)数据通常是加密的,但是在处理数据进行解密时,数据很容易受到攻击。

解决方案

1.同态加密:同态加密允许对加密数据进行非多项式运算。这意味着机器学习可以直接对加密数据进行训练和推理。同态加密已成功应用于随机森林,朴素贝叶斯和逻辑回归[6]。[7]设计了对加密数据进行分类的低次多项式算法。最近,已有深度学习模型改造用于加密域[8、9、10]。

2.安全多方计算(MPC):MPC背后的原理是,两个或两个以上互相不信任的方可以将各自的输入转换为“无厘头的话”,然后发送到一个函数,该函数仅在输入数量正确时才会产生有意义的输出。

MPC有诸多应用,比如利用不同医院的基因组数据,MPC可以用于基因组诊断[11];利用线性回归,逻辑回归和神经网络,MPC可以对MNIST图像进行分类[12]。[11]就是一个典型例子,证明在隐私得到保护的情况下,通过访问敏感数据在这一方面取得了一定进展。

由于缺少训练分类和生成模型所需的数据,因此有许多任务机器学习无法完成。不是因为数据不存在,而是因为信息的敏感性质意味着数据无法共享甚至有时无法收集,大到医学数据,小到某位具体说话者的元数据,而后者可能帮助加强语音自动识别系统(如识别说话人的年龄、位置、第一语言)。

3.联邦学习:联邦学习基本上指的是设备上的机器学习。仅当机器学习和差分隐私训练(请参阅上文中的DPSGD)和MPC结合以进行安全模型聚合[13]时,联邦学习才能真正实现隐私保护,因此无法从一部手机输出的权重更新中进行反向工程找到用于训练模型的数据。实际上,谷歌已经在Gboard上推出了联邦学习(点此参阅相关的文章),而苹果公司也在CoreML3中引入了联邦学习支持。

模型隐私

图源:Unsplash

人工智能模型或能成为公司的主业,许多模型可以通过API或是最近出现的可供下载的软件为开发人员提供预测功能。模型隐私是四个支柱中最后一个支柱,必须纳入考虑,同时它也是用户和公司利益的核心。如果公司的竞争对手可以轻松复制该公司的AI模型(这种行为难以直接调查),那么公司将没有动力打造有趣的产品,也没有动力投资提高AI的能力。

证据

机器学习模型构成许多公司的核心产品和IP(知识产权),因此,模型被盗是一个严重的威胁,可能会对业务产生重大负面影响。一个模型可以直接被窃取,也可以根据模型输出通过逆向工程再现原模型[14]。

解决方案

1.目前,差分隐私应用于模型输出以防止逆向再现模型攻击方面已经开展了一些工作。差分隐私通常意味着损害模型的准确性;然而,[15]提出了一种方法,不需要牺牲准确性来换取隐私。

2.如果选择在云中加密模型,同态加密不仅可以用于保护输入和输出隐私,还可以保护模型隐私。但是,这需要大量的计算成本,并且不能防止逆向再现模型攻击。

建立完美保护隐私AI的四个支柱

从上文可以看出,没有一项通用技术可以解决所有的隐私问题。不过,想要拥有完美保护隐私的AI(这是研究界和业界尚未实现的目标),必须组合以下技术:

•同态加密+差分隐私

•安全多方计算+差分隐私

•联邦学习+差分隐私+安全多方计算

•同态加密+ PATE

•安全多方计算+ PATE

•联邦学习+ PATE +同态加密

还存在其他的技术组合,包括一些组合中包含替代性技术但尚无可靠的数学依据。即(1)安全区域(例如Intel SGX),即使没有系统内核的访问权限,也可以执行计算;(2)数据识别;(3)数据合成。

目前,完美保护隐私的AI仍然是一个研究难题,但是目前已有一些工具可以解决一些最为迫切的隐私需求。

图源:Unsplash

隐私保护机器学习工具

•Tensorflow中的差分隐私

•PyTorch中的MPC和联邦学习

•Tensorflow中的MPC

•使用CoreML3进行设备上的机器学习

参考文献

[1] Carlini,Nicholas, et al., The Secret Sharer: Evaluating and testing unintendedmemorization in neural networks (2019), 28th USENIX Security Symposium (USENIX Security19).

[2] Coavoux,Maximin, Shashi Narayan, and Shay B. Cohen, Privacy-preserving neuralrepresentations of text (2018), arXiv preprint arXiv:1808.09408.

[3] Song, Shuang,Kamalika Chaudhuri, and Anand D. Sarwate, Stochastic gradient descent with differentiallyprivate updates (2013), IEEE Global Conference on Signal and InformationProcessing.

[4] Wu, X., Li,F., Kumar, A., Chaudhuri, K., Jha, S., and Naughton, J., Bolt-on differentialprivacy for scalable stochastic gradient descent-based analytics (2017), InProceedings of the 2017 ACM International Conference on Management of Data,1307–1322. ACM.

[5] Papernot,Nicolas, et al., Scalable private learning with PATE (2018), arXiv preprintarXiv:1802.08908 (2018).

[6] Aslett, LouisJM, Pedro M. Esperança, and Chris C. Holmes, Encrypted statistical machinelearning: new privacy preserving methods (2015), arXiv preprintarXiv:1508.06845.

[7] Graepel,Thore, et al., Machine Learning on Encrypted Data (2012), ICISC 2012, LNCS7839.

[8] Hesamifard,Ehsan, Hassan Takabi, and Mehdi Ghasemi, CryptoDL: Deep neural networks overencrypted data (2017), arXiv preprint arXiv:1711.05189.

[9] Hesamifard,Ehsan, et al., Privacy-preserving machine learning as a service (2018),Proceedings on Privacy Enhancing Technologies.

[10]Gilad-Bachrach, Ran, et al., CryptoNets: Applying neural networks to encrypteddata with high throughput and accuracy (2016), International Conference onMachine Learning.

[11] Jagadeesh,Karthik A., et al., Deriving genomic diagnoses without revealing patientgenomes (2017), Science 357.6352.

[12] Mohassel,Payman, and Yupeng Zhang, SecureML: A system for scalable privacy-preservingmachine learning (2017), 2017 IEEE Symposium on Security and Privacy (SP).

[13] Bonawitz,Keith, et al., Practical secure aggregation for privacy-preserving machinelearning (2017), Proceedings of the 2017 ACM SIGSAC Conference on Computer andCommunications Security.

[14] Tramèr,Florian, et al., Stealing machine learning models via prediction apis (2016),25th USENIX Security Symposium (USENIX Security 16).

[15] Wang, Yue,Cheng Si, and Xintao Wu, Regression model fitting under differential privacyand model inversion attack (2015), Twenty-Fourth International Joint Conferenceon Artificial Intelligence.

AI 作为基础信息技术,既可以被攻击者利用,也可以被防护方使用。用户只有提高安全意识、时刻注意隐私信息的安全保护才是最关键的。

留言 点赞 关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

发布了731 篇原创文章 · 获赞 2402 · 访问量 35万+

猜你喜欢

转载自blog.csdn.net/duxinshuxiaobian/article/details/104074003