联邦学习将如何影响您的日常生活?

 

人工智能 (AI) 被认为是下一次工业革命的最大创新之一,其中包括机器学习。另一方面,随着原油和电力成为现代工业的基础资源,数据成为人工智能和机器学习的关键要素。

数据隐私与需求之间的冲突
训练的数据样本的大小决定了可用于增强 AI 性能的机器学习 (ML) 结果的可靠性和准确性。然而,从互联网上获取有用的数据并不总是一件容易的事。Web 爬取通常用于为饥饿的 ML 算法提供最新的数据。然而,网络爬行有时会变成一个道德问题,例如 Facebook-Cambridge Analytica 数据丑闻。他们收集和使用个人数据影响了美国 2016 年总统大选和英国脱欧公投的结果。随后,许多国家出台了数据保护法规,例如欧洲的通用数据保护条例(GDPR),其重点是数据相关组织对个人数据的使用和保护。

什么是联邦学习
联邦学习如何解决隐私信息保护与数据需求的矛盾?

联邦学习是一种分布式学习方法,具有与传统机器学习算法相同的建模效果。然而,联邦学习不是像传统 ML 那样集中所有原始数据,而是将计算任务分发到多个节点。这种方法可以实现与传统方法相同的结果,同时将数据保存在参与者可以控制其数据和设备的本地数据库中。

让我们用一个经典的类比。ML模型是羊,数据是草。一种传统的饲养绵羊的方法是购买草并将其运送到绵羊所在的位置,就像我们购买数据集并将它们移动到中央服务器一样。然而,隐私问题和法规阻止我们物理移动数据。草不能再离开它的区域。相反,联合收入采用双重方法。我们可以让绵羊在多片草地上吃草——我们的 ML 模型是以分布式方式构建的,数据不会在其局部区域之外传播。最终,ML 模型从每个人的数据中成长,就像羊吃每个人的草一样(2020,联邦学习)。

参与联邦学习的不仅是企业服务器和 IoT 设备,还有个人设备,例如您的智能手机或 PC,具体取决于数据所在的位置。最初,参与者从组织联邦学习的服务器接收模型参数。将模型应用于参与者的本地数据,并使用结果反复更新模型,直到模型变得稳定。在下一步中,来自所有参与者的模型参数由服务器收集并集成到最终模型中。这个过程被称为联合平均算法。在整个过程中,数据从不传输;仅传输模型参数。

Cyber​​vien提供了一个联邦学习平台,允许数据库所有者利用他们停滞不前的资源,让研究人员在安全有效的环境中为他们饥饿的 AI 模型提供数据,而数据不会离开本地服务器。浙江大学Cyber​​Vein研发中心是Cyber​​Vein的技术研发总部;目标是消除数据孤岛并使数据更有价值。

Cyber​​Vein 联邦学习允许垂直和水平联邦学习。垂直联邦学习旨在增加跨数据库的样本特征维度,这些数据库可能具有相同的人但缺乏背景。水平联邦学习旨在增加跨数据库的样本量,这些数据库可能具有相同的背景但缺乏人员。两种类型的学习都使公司能够使用本地数据训练他们的模型,然后将所有公司的模型集成到一个联合模型中,在加密下分离模型,从而提高信息安全级别。

在企业之间,联邦学习为跨行业挖掘数据带来了机会,无需担心数据泄露或违反数据保护法。数据永远不会离开原始数据库。

潜在应用
汽车保险

如果您想购买汽车保险,您提供的信息对于确定您的风险等级起着至关重要的作用。汽车保险公司希望通过为每个客户设置定制的保险计划来最大限度地降低风险和最大化利润。因此,他们的数据库应该包括多方位的信息,例如来自银行机构的消费数据、来自汽车公司的IoV(车联网)数据以及来自各种来源的信用评级。数据库还需要经常更新,覆盖范围广,并包含与客户匹配的信息。然而,大多数保险公司——尤其是小型保险公司——从他们过去客户的内部历史中获得的信息很少,而且关于新客户的数据也很有限。

信息不对称会导致对所有客户的定价不公平,因为平均每个客户的总风险是解决该问题的唯一解决方案。但是,在确定保费时,有限的信息可能会产生偏差或缺陷。

通过联合学习,保险公司可以从不同部门获取信息来丰富他们的定价模型,从而创建一种准确有效的方式来动态预测风险。因此,客户可以享受低保险费率而无需承担高风险客户的风险,保险公司可以实现利润最大化。

卫生保健
Cyber​​Vein 的联邦学习平台通过其医疗大数据平台支持各种应用,例如诊断角膜炎。该算法模型可以增强医生诊断的准确性,尤其是对于经验不足的医生。诊断算法模型已通过联邦学习进行训练,因此它适用于来自不同医院的案例样本,而不会损害患者隐私或数据机密性。

由细菌、真菌和病毒引起的不同类型的角膜炎在视觉上存在细微的差异,很难用肉眼正确诊断它们并为患者确定正确的治疗方案。如果出现重大故障,患者可能会失明。经过测试的联邦学习模型实现了 80% 的诊断准确率,优于 96% 的自愿参加实验的医生。

这种新的诊断方法提高了所有医生的能力,对所有患者具有最高水平的准确性。即使是经验不足的医生也能达到与经验丰富的医生相同水平的诊断准确性。通过准确的诊断,医生可以制定合适的治疗方案,最终提高疾病的治愈率。

越来越多的国家正在实施用户数据保护政策,因此公司必须合作开发他们的人工智能,使用一种既不会牺牲人们隐私又能为所有人带来便利的新方法。

猜你喜欢

转载自blog.csdn.net/CyberVein/article/details/128537408