Federated Machine Learning: Concept and Applications

　　今天的人工智能仍然面临两大挑战。一种是，在大多数行业中，数据以孤岛的形式存在。二是加强数据隐私和安全。我们提出了一个解决这些挑战的可能方案：安全联邦学习。除了谷歌在2016年首次提出的联邦学习框架外，我们还引入了一个全面的安全联邦学习框架，其中包括水平联邦学习、垂直联邦学习和联邦迁移学习。我们为联邦学习框架提供定义、架构和应用程序，并提供关于这个主题的现有工作的全面调查。此外，我们提出在组织之间建立基于联邦机制的数据网络，作为一种有效的解决方案，以允许在不损害用户隐私的情况下共享知识。

1　　INTRODUCTION

　　2016年是人工智能（AI）成熟的一年。随着AlphaGo[59]击败了顶尖的人类围棋玩家，我们真正见证了人工智能（AI）的巨大潜力，并开始期望在许多包括无人驾驶汽车、医疗保健、金融等的应用中，使用更复杂、尖端的人工智能技术。如今，人工智能技术在几乎所有行业都能发挥其优势。然而，回顾人工智能的发展历程，人工智能的发展必然经历了几次起伏。人工智能会有下一个转弯吗？什么时候会出现？因为什么因素？当前公众对人工智能感兴趣的部分是由大数据可用性驱动的：2016年，AlphaGo使用了总计300000盘比赛作为训练数据，以取得优异的成绩。

　　随着AlphaGo的成功，人们自然希望像AlphaGo这样的大数据驱动的人工智能能够在我们生活的各个方面很快实现。然而，现实情况有些令人失望：除了少数行业外，大多数领域的数据都很有限或质量较差，使得人工智能技术的实现比我们想象的要困难。是否可以通过跨组织传输数据，将数据融合到一个公共站点中？事实上，在许多情况下，打破数据源之间的障碍即使不是不可能的，也是非常困难的。一般来说，任何人工智能项目所需的数据涉及多种类型。例如，在人工智能驱动的产品推荐服务中，产品销售商拥有产品信息、用户购买数据，但没有描述用户购买能力和支付习惯的数据。在大多数行业中，数据以孤岛的形式存在。由于行业竞争、隐私安全和复杂的管理程序，甚至同一公司不同部门之间的数据集成也面临着巨大的阻力。几乎不可能将分散在全国各地的数据和机构进行整合，否则成本是难以承受的。

　　与此同时，随着大公司在数据安全和用户隐私方面的妥协意识日益增强，对数据隐私和安全的重视已成为世界性的重大问题。有关公开数据泄露的消息引起了公众媒体和政府的极大关注。例如，最近Facebook的数据泄露引发了广泛的抗议[70]。作为回应，世界各国正在加强保护数据安全和隐私的法律。例如，欧盟于2018年5月25日实施的《通用数据保护条例》（GDPR）[19]。GDPR（图1）旨在保护用户的个人隐私和数据安全。它要求企业在用户协议中使用清晰明了的语言，并授予用户“被遗忘的权利”，即用户可以删除或撤回其个人数据。违反该法案的公司将面临严厉的罚款。美国和中国也在制定类似的隐私和安全行为。例如，2017年颁布的《中国网络安全法》和《民法通则》要求互联网企业不得泄露或篡改其收集的个人信息，在与第三方进行数据交易时，必须确保提议的合同遵循法律数据保护义务。这些法规的建立将明显有助于建立一个更加文明的社会，但也将对人工智能中常用的数据处理程序提出新的挑战。

　　更具体的说，人工智能中的传统数据处理模型通常涉及简单的数据交易模型，一方收集数据并将其传输给另一方，另一方负责数据的清理和融合。最后，第三方将获取集成数据并构建模型供其他方使用。这些模型通常作为最终的服务产品进行销售。这一传统程序面临着上述新数据法规和法律的挑战。此外，由于用户可能不清楚模型的未来用途，因此这些交易违反了GDPR等法律。因此，我们面临着这样一个困境：我们的数据是以孤岛的形式存在的，但是在许多情况下，我们被禁止收集、融合和使用数据到不同的地方进行人工智能处理。如何合法地解决数据碎片化和隔离问题是当今人工智能研究者和实践者面临的主要挑战。

Federated Machine Learning: Concept and Applications

猜你喜欢