Das föderierte Lernmodell von PrimiHub ist Open Source, bricht Datenbeschränkungen und schützt den Datenschutz und die Datensicherheit

Der durch ChatGPT ausgelöste Aufschwung großer Modelle hat die Aufmerksamkeit von Menschen aus allen Gesellschaftsschichten für große Modelle künstlicher Intelligenz rasch erhöht.

Was ist ein Mockup? Große Modelle beziehen sich auf tiefe neuronale Netzwerkmodelle mit einer großen Anzahl von Parametern, die normalerweise leistungsfähigere Ausdrucks- und Generalisierungsfähigkeiten bieten und dadurch die Leistung und Qualität verschiedener intelligenter Dienste verbessern können. Während des Trainingsprozesses eines großen Modells steht man vor einer großen Herausforderung: Wie erhält man mehr Daten für das Training und wie schützt man den Datenschutz der Trainingsdaten?

Federated Learning ist ein verteiltes maschinelles Lernparadigma, das große Datenmengen auf Benutzergeräten effektiv nutzen und gleichzeitig den jeweiligen Datenschutz schützen und umfangreichere und vielfältigere Trainingsdaten für große Modelle bereitstellen kann. Sein Kernprozess ist die Übertragung von Parametern, das heißt, die Teilnehmer senden die auf ihren eigenen Geräten trainierten Modellparameter an den zentralen Server, und der zentrale Server aggregiert und mittelt die Parameter aller Teilnehmer und gibt dann die aktualisierten Parameter an die Teilnehmer zurück Dieser Zyklus trainiert und aktualisiert das Modell, um das verteilte Training und die Aktualisierung des großen Modells unter der Prämisse des Schutzes der Privatsphäre und Sicherheit der Benutzerdaten zu realisieren, was die Trainingseffizienz und Nachhaltigkeit des großen Modells verbessert.

Primitive Technology Open-Source-PrimiHub-Föderiertes Lernmodell

Auf dieser Grundlage hat Primitive Technology heute ein großes föderiertes Lernmodell auf PrimiHub als Open-Source-Lösung bereitgestellt und damit ein umfangreiches Modelltraining und Vorhersagen auf der Grundlage von föderiertem Lernen realisiert, das es mehreren Teilnehmern ermöglicht, gemeinsam ein großes tiefes neuronales Netzwerkmodell zu trainieren. Das große PrimiHub-Modell für föderiertes Lernen ist ein multimodales, föderiertes Pre-Training-Modell mit mehreren Aufgaben und mehreren Domänen, das Text verstehen und generieren kann, mehrere Sprachen und Szenarien unterstützt und auf Suche, Empfehlung, Dialog usw. angewendet werden kann. Übersetzung, Zusammenfassung, Erstellung und andere Bereiche, um Benutzern reichhaltigere, genauere und personalisiertere Inhalte und Dienste bereitzustellen.

Das große Modell des föderierten Lernens von PrimiHub basiert auf ChatGLM6B, das das große Modell des föderierten Lernens im PrimiHub-Framework implementiert. ChatGLM6B ist ein multimodales, multitaskingfähiges und multidomänenbasiertes Pre-Training-Modell, das verschiedene Arten von Daten wie Text, Bild, Audio, Video usw. verstehen und generieren kann und mehrere Sprachen und Szenarien unterstützt. Mit PrimiHub können Benutzer auf ihren eigenen Geräten am Verbundlernen teilnehmen, den Datenschutz und die Datensicherheit schützen und die intelligenten Dienste großer Modelle nutzen.

Über den folgenden Link können Sie es direkt erleben:

  • Projektadresse: https://github.com/primihub/primihub

  • Nutzungsleitfaden: https://docs.primihub.com/docs/advance-usage/create-tasks/fedreated-learning/chatglm/

Technische Highlights des PrimiHub Federated Learning Large Model

  1. Das große PrimiHub-Modell für föderiertes Lernen basiert auf ChatGLM6B, das viele Parameter und eine gute Wirkung hat. Mit mehr als 6 Milliarden Parametern ist es derzeit eines der größten chinesischen Vortrainingsmodelle und eines der fortschrittlichsten multimodalen Vortrainingsmodelle und hat große Erfolge in verschiedenen Bereichen der Verarbeitung natürlicher Sprache, Computer Vision, Spracherkennung usw. erzielt andere Aufgaben. Mit hervorragender Leistung und Qualität bietet es Benutzern umfangreichere, genauere und personalisiertere Inhalte und Dienste.

  2. Durch die Ptuning-Technologie wird durch die Anpassung eines Teils der Gewichte die Optimierung der Modellparameter mit dem gleichen Effekt wie die Anpassung aller Parameter realisiert, wodurch der Berechnungs- und Ressourcenaufwand des föderierten Lernens reduziert wird. Ptuning ist eine neuartige Modell-Feinabstimmungstechnologie, die den gleichen Effekt wie die Anpassung aller Parameter erzielen kann, indem ein kleiner Teil der Parameter (z. B. 1 %) angepasst wird, während die meisten Parameter unverändert bleiben, wodurch die erforderlichen Kommunikations- und Rechenressourcen erheblich reduziert werden für Modellschulungen und -aktualisierungen. Ermöglichen Sie Benutzern, den Prozess der Vereinigung großer Modelle auf Grafikkarten der Verbraucherklasse zu erleben. Mit dem großen PrimiHub-Modell für föderiertes Lernen können Benutzer auf einfache Weise föderiertes Lernen auf Verbrauchergrafikkarten (z. B. NVIDIA GeForce RTX 3070) durchführen, ohne dass High-End-Server oder Cloud-Plattformen erforderlich sind, wodurch die Schwelle und die Kosten für die Teilnahme der Benutzer gesenkt werden föderiertes Lernen.

  3. Basierend auf dem neuen PrimiHub SDK ist nur eine Befehlszeile erforderlich, um das Training großer Modelle auf Basis von föderiertem Lernen zu realisieren. Erleichtern Sie den Benutzern den Einstieg. PrimiHub SDK ist ein benutzerfreundliches und effizientes Open-Source-Softwareentwicklungskit für föderiertes Lernen. Es ermöglicht Benutzern die Teilnahme am Verbundlernen auf ihren eigenen Geräten, schützt den Datenschutz und die Datensicherheit und nutzt die intelligenten Dienste großer Modelle. Benutzer müssen lediglich eine Befehlszeile eingeben, um das verteilte Training großer Modelle beim Verbundlernen automatisch abzuschließen Und Updates ohne komplexe Konfiguration und Programmierung verbessern den Komfort und die Erfahrung der Benutzer, die am föderierten Lernen teilnehmen.

PrimiHub föderiertes Lernen großer modellspezifischer Trainingsparameter:

  • Szenario: Horizontales Föderationsszenario

  • Aufgabendaten: Chinesischer MedDialog-Datensatz (Frage und Antwort zu medizinischem Text, 110 W), ADGEN-Datensatz (Klassifizierung von Kleidungsetiketten, 11 W)

  • Parameterparteien: zwei teilnehmende Modellierungsparteien, eine Aggregationsdienstpartei

  • Umgebung: 3070 8 GB x 2

  • Modellparameter: 6 Milliarden (6b, 6000M)

Was wollen wir in Zukunft noch tun?

Das PrimiHub-Föderationsmodell wird weiterhin iteriert. In Zukunft wird die PrimiHub-Open-Source-Community weiterhin die Modelltypen des großen PrimiHub-Föderationsmodells iterieren und Online-Großmodelldienste bereitstellen, um die Schwelle für die Verwendung großer Modelle zu senken.

Mit der Entwicklung der Digitalisierung und der Verbreitung medizinischer Daten kann sie einerseits die Entwicklung von Branchen wie der intelligenten Diagnose und Behandlung sowie der Forschung und Entwicklung neuer Arzneimittel fördern und andererseits auch einige Fortschritte in diesem Bereich fördern Biowissenschaften und Technologie wie moderne medizinische Forschung, öffentliche Gesundheit und Epidemieprävention sowie klinisch-medizinische Anwendungen. Medizinische Daten weisen jedoch starke Datenschutzeigenschaften auf, und die Nachfrage nach Datenschutz und Datensicherheit ist noch größer. Durch die Kombination von großen Modellen des föderierten Lernens und Daten der medizinischen Industrie ist es möglich, die vollständige Verbreitung von Daten sicherzustellen, ohne die Privatsphäre der Benutzer preiszugeben, und Daten auf gesetzeskonforme und rechtmäßige Weise zu nutzen, um die Entwicklung der digitalen medizinischen Versorgung voranzutreiben.

In der Finanzbranche sind Daten als „Blut“ der digitalen Risikokontrolle gleichermaßen wichtig, doch mit der steigenden Nachfrage der Banken nach Datenaustausch und den strengen Anforderungen der Aufsicht an Datensicherheit und Datenschutz wächst die Kluft zwischen ihnen und externen Institutionen Die technischen Schwierigkeiten und Kosten für den Datenaustausch zwischen ihnen sind stark gestiegen. Durch die Kombination von großen Modellen des föderierten Lernens und Finanzdaten kann der „Inseleffekt“ unter der Prämisse einer zufriedenstellenden Sicherheit durchbrochen und eine umfassende und genaue Bewertung von Risiken durch die effektive Entwicklung und Nutzung von Datenressourcen realisiert und dadurch gefördert werden schnelle Geschäftsentwicklung.

In Zukunft wird das föderierte Lernmodell von PrimiHub auch tief in mehrere Branchen wie Finanzen, medizinische Versorgung und das Internet integriert, um eine neue Form der Branchendigitalisierung herbeizuführen. Gleichzeitig werden auch persönliche Assistenten auf Basis von GPT+ Privacy Computing eingeführt haben viel Raum für Fantasie. Die kontrollierbare Nutzung sensibler Datenwerte kann durch Privacy Computing realisiert werden, was für große Modelle in bestimmten Bereichen die einzige Möglichkeit sein wird.

Guess you like

Origin blog.csdn.net/PrimiHub/article/details/130405200
Recommended