PrimiHub 联邦学习大模型开源，打破数据限制，保护数据隐私安全

ChatGPT 掀起的大模型热潮，让各界人士对人工智能大模型的关注度极速提高。

什么是大模型？大模型是指具有大量参数的深度神经网络模型，它们通常可以提供更强大的表达能力和泛化能力，从而提升各种智能服务的性能和质量。大模型在训练的过程中，会面临一个重大挑战：如何获取更多的数据进行训练以及如何保护训练数据的数据隐私？

联邦学习是一种分布式的机器学习范式，能够在保护各自数据隐私的同时，有效地利用用户设备上的海量数据，为大模型提供更丰富和更多样的训练数据。其核心过程是参数的传递，即参与者将自己设备上训练得到的模型参数发送给中心服务器，中心服务器将所有参与者的参数进行聚合和平均，然后将更新后的参数返回给参与者，以此循环进行模型的训练和更新，以实现在保护用户数据隐私和安全的前提下，完成大模型的分布式训练和更新，提高了大模型的训练效率和可持续性。

原语科技开源 PrimiHub 联邦学习大模型

基于此，今日，原语科技在 PrimiHub 上开源了联邦学习大模型，实现了基于联邦学习的大模型训练和预测，它允许多个参与者在保护各自数据隐私的同时，共同训练一个大型的深度神经网络模型。 PrimiHub 联邦学习大模型是一个多模态、多任务、多领域的联邦预训练模型，它可以理解和生成文本，并支持多种语言和场景，并且可以应用于搜索、推荐、对话、翻译、摘要、创作等多个领域，为用户提供更丰富、更精准、更个性化的内容和服务。

PrimiHub 联邦学习大模型是基于 ChatGLM6B，实现了在 PrimiHub 框架中的联邦大模型。ChatGLM6B 是一个多模态、多任务、多领域的预训练模型，它可以理解和生成文本、图像、音频、视频等各种类型的数据，并支持多种语言和场景。PrimiHub 可以让用户在自己的设备上参与联邦学习，保护数据隐私和安全，同时享受大模型带来的智能服务。

通过下方链接即可直接体验：

项目地址：https://github.com/primihub/primihub
使用指引：https://docs.primihub.com/docs/advance-usage/create-tasks/fedreated-learning/chatglm/

PrimiHub 联邦学习大模型技术亮点

PrimiHub 联邦学习大模型基于 ChatGLM6B，其参数量多，效果好。它具有超过60亿个参数，是目前最大的中文预训练模型之一，也是目前最先进的多模态预训练模型之一，在各种自然语言处理、计算机视觉、语音识别等任务上都取得了优异的性能和质量，为用户提供了更丰富、更精准、更个性化的内容和服务。
通过 Ptuning 技术，实现通过调整一部分权重，来实现和调整全部参数一样效果的模型调参，降低了联邦学习的计算和资源开销。Ptuning 是一种新颖的模型微调技术，它可以在保持大部分参数固定的情况下，通过调整一小部分参数（如1%），来实现和调整全部参数一样效果的模型优化，从而显著降低了模型训练和更新所需的通信和计算资源。让用户能够在消费级的显卡就能体验联邦大模型的流程。PrimiHub 联邦学习大模型可以让用户在消费级的显卡（如NVIDIA GeForce RTX 3070）上轻松地进行联邦学习，无需高端的服务器或云平台，降低了用户参与联邦学习的门槛和成本。
基于新的 PrimiHub SDK，仅需一行命令，即可实现基于联邦学习的大模型的训练。使用户能够简单上手。PrimiHub SDK 是一个开源的、易用的、高效的联邦学习软件开发工具包。它可以让用户在自己的设备上参与联邦学习，保护数据隐私和安全，同时享受大模型带来的智能服务，只需要用户输入一行命令，就可以自动完成大模型在联邦学习中的分布式训练和更新，无需复杂的配置和编程，提高了用户参与联邦学习的便利性和体验。

PrimiHub 联邦学习大模型具体训练参数：

场景：横向联邦场景
任务数据：Chinese MedDialog Dataset（医疗文本问答，110w）、ADGEN 数据集（服装标签分类，11w）
参数方：两个参与建模方，一个聚合服务方
环境：3070 8GB x 2
模型参数量：60亿 (6b， 6000M)

未来我们还想做什么？

PrimiHub 联邦大模型也会持续进行迭代。未来 PrimiHub 开源社区还将针对 PrimiHub 联邦大模型在模型种类上进行持续迭代，提供在线大模型服务等降低大模型的使用门槛。

随着数字化发展，医疗数据的流通，一方面可以推动智慧诊疗、新药研发等产业的发展，另一方面也可以促进现代化医学研究、公共卫生防疫以及临床医疗应用等生物科学技术的一些进步。但是医疗数据又具有极强的隐私属性，对隐私保护和数据安全的需求更为强烈。通过联邦学习大模型与医疗行业数据结合，能够在保证数据充分流通的同时不泄露用户隐私、合规合法地使用数据以推动数字医疗的发展。

在金融行业中，数据同样重要，其作为数字化风控的“血液”，但随着银行对数据共享的需求不断增加及监管对数据安全和隐私保护的严格要求，大大增加了其与外部机构之间数据共享的技术难度和成本。通过联邦学习大模型与金融数据的结合，则能在满足安全性的前提下，打破“孤岛效应”，通过数据资源的有效开发利用，实现风险的全面准确评估，从而推动业务快速发展。

未来，PrimiHub 联邦学习大模型也将在金融、医疗、互联网等多个行业深度结合带来行业数字化新形态，同时，基于 GPT+隐私计算的私人助理也有巨大想象空间。通过隐私计算则可实现敏感数据价值的可控使用，这将成为特定领域大模型的必由之路。