Zehn einflussreiche Forschungsarbeiten zur künstlichen Intelligenz im Jahr 2023

Im Jahr 2023 wird der Bereich der künstlichen Intelligenz (KI) eine beispiellose rasante Entwicklung einläuten. Mit den kontinuierlichen Durchbrüchen und Innovationen in der Technologie ist KI zu einer wichtigen treibenden Kraft geworden, die den Zukunftstrend anführt. In diesem Artikel werfen wir einen detaillierten Blick auf zehn transformative Forschungsarbeiten aus verschiedenen Bereichen, die sich mit Sprachmodellen, Bildverarbeitung, Bilderzeugung und Videobearbeitung befassen. Während Diskussionen über künstliche allgemeine Intelligenz (AGI) zeigen, dass AGI zugänglicher als je zuvor zu sein scheint, untersuchen einige der vorgestellten Artikel verschiedene Wege zu AGI, beispielsweise die Erweiterung von Sprachmodellen oder die Nutzung von Reinforcement Learning für die domänenübergreifende Beherrschung.

Hier sind zehn empfohlene Forschungsarbeiten:

Hier sind zehn empfohlene Forschungsarbeiten:

1. AGI Spark von Microsoft

Zusammenfassung

Forscher der künstlichen Intelligenz (KI) haben große Sprachmodelle (LLMs) entwickelt und verfeinert, die bemerkenswerte Fähigkeiten in einer Vielzahl von Bereichen und Aufgaben aufweisen und unser Verständnis von Lernen und Kognition herausfordern. Das neueste von OpenAI entwickelte Modell mit dem Namen GPT-4 [Ope23] wurde mit einem beispiellosen Umfang an Berechnungen und Daten trainiert. In diesem Artikel berichten wir über Erkenntnisse zu einer frühen Version von GPT-4, als diese sich noch in der aktiven Entwicklung bei OpenAI befand. Forscher glauben, dass GPT-4 (diese frühe Version) Teil einer großen neuen Kohorte von Sprachmodellen ist, zusammen mit Modellen wie ChatGPT und Googles PaLM, die mehr allgemeine Intelligenz aufweisen als frühere KI-Modelle. Die zunehmenden Fähigkeiten dieser Modelle und die daraus resultierenden Auswirkungen werden in dem Papier diskutiert. Die Forscher zeigten, dass GPT-4 neben der Beherrschung der Sprache auch in der Lage ist, neuartige und schwierige Aufgaben in mehreren Bereichen wie Mathematik, Codierung, Vision, Medizin, Recht, Psychologie usw. ohne besondere Aufforderung zu lösen. Bemerkenswert ist, dass die Leistung von GPT-4 bei all diesen Aufgaben dem menschlichen Niveau sehr nahekommt und frühere Modelle wie ChatGPT oft weit übertrifft. Angesichts der Breite und Tiefe der Fähigkeiten von GPT-4 glauben die Forscher, dass es gerechtfertigt ist, es als eine frühe (wenn auch noch unvollständige) Version eines Systems der künstlichen allgemeinen Intelligenz (AGI) zu betrachten. Bei ihrer Untersuchung von GPT-4 heben die Forscher insbesondere hervor, wie wichtig es ist, seine Grenzen zu entdecken, und erörtern die Herausforderungen bei der Entwicklung hin zu tieferen und umfassenderen Versionen von AGI, die möglicherweise die Verfolgung eines neuen Paradigmas erfordern, das über die Vorhersage des nächsten Wortes hinausgeht. Abschließend reflektieren die Forscher die gesellschaftlichen Implikationen und zukünftigen Forschungsrichtungen der jüngsten Technologiesprünge.

Fügen Sie hier eine Bildbeschreibung ein

Erfahren Sie mehr über den Forschungsinhalt :
Titel des Papiers: Sparks of Artificial General Intelligence: Early experiments with GPT-4
Adresse des Papiers: https://arxiv.org/abs/2303.12712
Vorlesung zum Papierexperiment: https://www.youtube.com/ Sehen Sie sich ?v=qbIk7-JPB2c an

Implementierungscode abrufen :
Keiner

2. PALM-E von Google veröffentlicht

Zusammenfassung

Große Sprachmodelle haben sich als fähig erwiesen, komplexe Aufgaben auszuführen. Allerdings bringt die Umsetzung allgemeiner Überlegungen in die reale Welt, wie beispielsweise das Lösen von Robotikproblemen, reale Herausforderungen mit sich, nämlich das Problem des Aufbaus von Verbindungen. Zu diesem Zweck schlugen die Forscher ein verkörpertes Sprachmodell vor, das kontinuierliche Sensormodalitäten in der realen Welt direkt in das Sprachmodell einbezieht, um die Verbindung zwischen Wörtern und Wahrnehmung herzustellen. Die Eingabe für unser vorgeschlagenes verkörpertes Sprachmodell sind multimodale Sätze, die visuelle, kontinuierliche Zustandsschätzung und textuelle Eingabekodierung miteinander verknüpfen. Wir trainieren diese Kodierungen durchgängig mit vorab trainierten großen Sprachmodellen für mehrere verkörperte Aufgaben, einschließlich sequenzieller Roboteraktionsplanung, visueller Beantwortung von Fragen und Generierung von Untertiteln. Unsere Auswertung zeigt, dass PaLM-E, ein einzelnes groß angelegtes multimodales Verkörperungsmodell, in der Lage ist, eine Vielzahl von Verkörperungsschlussfolgerungsaufgaben mit mehreren Beobachtungsmodalitäten zu lösen, auf mehrere Verkörperungen anwendbar ist und auch einen positiven Transfer aufweist: Das Modell profitiert von vielfältigen Verbindungen Schulung in den Bereichen sprachliche, visuelle und visuelle Sprache auf Internetebene. Unser größtes Modell, PaLM-E-562B, mit 562B-Parametern ist nicht nur auf Roboteraufgaben trainiert, sondern auch ein allgemeines visuelles Sprachmodell, das bei OK-VQA gut funktioniert und die Allgemeingültigkeit bei der Skalierung der Sprachfähigkeiten beibehält.

Fügen Sie hier eine Bildbeschreibung ein

Erfahren Sie mehr über den Forschungsinhalt.
Papiertitel: PaLM-E: An Embodied Multimodal Language Model.
Papieradresse: https://arxiv.org/abs/2303.03378
. Papierdemo: https://palm-e.github.io/#demo
. Blog Artikel: https://blog.research.google/2023/03/palm-e-embodied-multimodal-Language.html

Rufen Sie den Speicherort des Implementierungscodes ab.
Die Code-Implementierung des PaLM-E-Modells ist derzeit nicht verfügbar.

3. LLaMA 2 veröffentlicht von Meta AI

Zusammenfassung

In dieser Arbeit entwickelten und veröffentlichten die Forscher Llama 2, eine Reihe vorab trainierter und fein abgestimmter großer Sprachmodelle (LLMs) mit einer Größe von 7 bis 70 Milliarden Parametern. Unsere fein abgestimmten LLMs, Llama 2-Chat genannt, sind für Konversationsnutzungsszenarien optimiert. Unser Modell übertrifft Open-Source-Konversationsmodelle bei den meisten von uns getesteten Benchmarks und könnte basierend auf unserer menschlichen Bewertung eine geeignete Alternative zu Closed-Source-Modellen in Bezug auf Nützlichkeit und Sicherheit sein. Wir erläutern detailliert unseren Ansatz zur Feinabstimmung und Verbesserung der Sicherheit von Llama 2-Chat, damit die Community auf unserer Arbeit aufbauen und zur verantwortungsvollen Entwicklung von LLMs beitragen kann.

Fügen Sie hier eine Bildbeschreibung ein

Erfahren Sie mehr über die Forschung

Titel des Papiers: Llama 2: Open Foundation and Fine-Tuned Chat Models
Papieradresse: https://arxiv.org/abs/2307.09288
Blogartikel: Llama 2: Open Source, kostenlos für Forschung und kommerzielle Nutzung

Erfahren Sie, wo Sie den Code implementieren können.
Meta AI hat das LLaMA 2-Modell für Einzelpersonen, Entwickler, Forscher und Unternehmen jeder Größe veröffentlicht
unter: https://github.com/facebookresearch/llama

4. LLaVA, veröffentlicht von der University of Wisconsin, Microsoft und der Columbia University

Zusammenfassung

Es hat sich gezeigt, dass die Instruktionsoptimierung großer Sprachmodelle (LLMs) unter Verwendung maschinengenerierter Instruktionsfolgedaten die Zero-Shot-Fähigkeiten für neue Aufgaben verbessert, diese Idee wird jedoch im multimodalen Bereich weniger erforscht. Die Autoren präsentieren den ersten Versuch, mithilfe von GPT-4 multimodale Sprach-Bild-Anweisungen nach Daten zu generieren, die ausschließlich auf Sprache basieren. Durch die Anpassung der Anweisungen an diese generierten Daten stellen die Autoren LLaVA vor: Large Language and Vision Assistant, ein durchgängig trainiertes großes multimodales Modell, das einen visuellen Encoder und ein LLM für allgemeines visuelles und Sprachverständnis verbindet. Um zukünftige Forschungen zum visuellen Befolgen von Anweisungen zu erleichtern, erstellen die Autoren zwei Bewertungsmaßstäbe mit vielfältigen und herausfordernden anwendungsorientierten Aufgaben. Die Experimente der Autoren zeigen, dass LLaVA beeindruckende multimodale Chat-Fähigkeiten aufweist, manchmal das Verhalten von multimodalem GPT-4 bei unsichtbaren Bildern/Anweisungen zeigt und synthetische multimodale Anweisungen bei Daten befolgt. Der Satz erreichte eine relative Punktzahl von 85,1 % im Vergleich zu GPT-4. Bei der Feinabstimmung der wissenschaftlichen Qualitätssicherung erreichte die Synergie von LLaVA und GPT-4 eine neue Spitzengenauigkeit von 92,53 %. Der Autor legt die von GPT-4 generierten visuellen Befehlsanpassungsdaten, das Modell und den Code des Autors offen.

Fügen Sie hier eine Bildbeschreibung ein

Erfahren Sie mehr über den Forschungsinhalt.
Papiertitel: Visual Instruction Tuning.
Papieradresse: https://arxiv.org/abs/2304.08485
. Blogartikel: https://llava-vl.github.io/
. Holen Sie sich den Speicherort des
Implementierungscodes Die Implementierung von LLaVA kann sein. Holen Sie sich die Adresse auf GitHub
: https://github.com/haotian-liu/LLaVA

5. Generative Agents, veröffentlicht von der Stanford University und Google

Zusammenfassung

Vertrauenswürdige menschliche Handlungsagenten können interaktive Anwendungen ermöglichen, die von immersiven Umgebungen über zwischenmenschliche Proberäume bis hin zu Prototyping-Tools reichen. In diesem Artikel werden generative Agenten vorgestellt: rechnergestützte Softwareagenten, die glaubwürdiges menschliches Verhalten simulieren. Generative Agenten stehen auf, machen Frühstück und machen sich an die Arbeit; Künstler malen, Schriftsteller schreiben; sie bilden sich Meinungen, nehmen einander wahr und beginnen Gespräche; sie erinnern sich an vergangene Tage und reflektieren sie, während sie den nächsten planen. Um generative Agenten zu implementieren, beschreiben wir eine Architektur, die große Sprachmodelle erweitert, um die gesamte Erfahrungsaufzeichnung des Agenten in natürlicher Sprache zu speichern, diese Erinnerungen im Laufe der Zeit zu Reflexionen auf höherer Ebene zu synthetisieren und sie dynamisch für das Planungsverhalten abzurufen. Wir instanziieren generative Agenten, um eine interaktive Sandbox-Umgebung zu bevölkern, die von Die Sims inspiriert ist und in der Endbenutzer mit 25 Agenten in einer Kleinstadt in natürlicher Sprache interagieren können. Bei der Bewertung erzeugen diese generativen Agenten glaubwürdige individuelle und entstehende soziale Verhaltensweisen. Beginnend mit dem Konzept eines Agenten, der von einem einzelnen Benutzer benannt wird, der eine Valentinstagsparty veranstalten möchte, verteilen die Agenten in den nächsten zwei Tagen selbstständig Einladungen zur Party, schließen neue Freunde und vereinbaren, gemeinsam auf der Party zu erscheinen zu einem geeigneten Zeitpunkt. Wir zeigen durch Eliminierungsexperimente, dass die Komponenten unserer Agentenarchitektur – Beobachtung, Planung und Reflexion – jeweils eine entscheidende Rolle für die Vertrauenswürdigkeit des Agentenverhaltens spielen. Durch die Fusion großer Sprachmodelle mit rechnergestützten Interaktionsagenten stellt diese Arbeit Architekturen und Interaktionsmuster vor, die vertrauenswürdige Simulationen menschlichen Verhaltens ermöglichen.

Fügen Sie hier eine Bildbeschreibung ein

Erfahren Sie mehr über den Forschungsinhalt.
Titel des Beitrags: Generative Agents: Interactive Simulacra of Human Behavior.
Adresse des Beitrags: https://arxiv.org/abs/2304.03442
. Demonstrationsvideo (Forschungsvideo, vorgeführt von Joon Sung Park, dem Erstautor des Beitrags): https:/ /youtu.be/nKCJ3BMUy1s?si=90md6r40oXbdrA8g
Holen Sie sich den Speicherort des Implementierungscodes
Github: https://github.com/joonspk-research/generative_agents

6. Segmentieren Sie alles, was von Meta AI veröffentlicht wurde

Zusammenfassung

Das Segment Anything (SA)-Projekt führt eine neue Bildsegmentierungsaufgabe, ein neues Modell und einen neuen Datensatz ein. Durch den Einsatz unserer effizienten Modelle in der Datenerfassungsschleife haben wir den bislang (bei weitem) größten Segmentierungsdatensatz erstellt, der über 1 Milliarde Masken auf über 100 Millionen genehmigten und die Privatsphäre respektierenden Bildern umfasst. Das Modell ist für die Verarbeitung von Hinweisen konzipiert und trainiert und ermöglicht daher eine Zero-Shot-Übertragung auf neue Bildverteilungen und Aufgaben. Wir bewerten seine Fähigkeiten bei einer Reihe von Aufgaben und stellen fest, dass seine Nullschussleistung beeindruckend ist und oft mit früheren, vollständig überwachten Ergebnissen konkurriert oder diese sogar übertrifft. Wir veröffentlichen das Segment Anything Model (SAM) und den entsprechenden Datensatz (SA-1B), der 1 Milliarde Masken und 11 Millionen Bilder umfasst, um die Forschung an grundlegenden Modellen des Computer Vision zu fördern. Weitere Informationen finden Sie unter https://segment-anything.com.

Fügen Sie hier eine Bildbeschreibung ein

Erfahren Sie mehr über den Forschungsinhalt.
Papiertitel: Segment Anything.
Papieradresse: https://arxiv.org/abs/2304.02643
. Demonstration, Datensatz: https://segment-anything.com/
. Holen Sie sich den Speicherort des Implementierungscodes
Segment Anything Model (SAM) und der entsprechende Datensatz (SA-1B), der 1 Milliarde Masken und 11 Millionen Bilder enthält, veröffentlicht
unter: https://github.com/facebookresearch/segment-anything

7. DALL-E 3 veröffentlicht von OpenAI

Zusammenfassung

Fügen Sie hier eine Bildbeschreibung ein

Erfahren Sie mehr über den
Titel des Forschungspapiers: „Improving Image Generation with Better Captions“.
Papieradresse: https://cdn.openai.com/papers/dall-e-3.pdf
Blogartikel: https://openai.com/dall-e -3
Wo bekomme ich den Implementierungscode?
Die Code-Implementierung für DALL-E 3 ist derzeit nicht verfügbar, aber die Autoren haben einen Text-zu-Bild-Beispielsatz zur Bewertung von DALL-E im Vergleich zu Mitbewerbern veröffentlicht.
Adresse: https://github.com/openai/dalle3-eval-samples

8. ControlNet, veröffentlicht von der Stanford University

Zusammenfassung

ControlNet wird als neuronale Netzwerkarchitektur vorgeschlagen, um großen, vorab trainierten Text-zu-Bild-Diffusionsmodellen räumliche Konditionierungssteuerung hinzuzufügen. ControlNet bindet produktionsbereite, groß angelegte Diffusionsmodelle ein und verwendet deren tiefe und leistungsstarke Codierungsschichten, die vorab auf Milliarden von Bildern trainiert wurden, als starke Unterstützung für das Erlernen verschiedener bedingter Kontrollen wieder. Die neuronale Architektur ist mit „Null-Faltungen“ (Null-initialisierten Faltungsschichten) verbunden, die die Parameter schrittweise von Null an erhöhen und so sicherstellen, dass kein schädliches Rauschen den Feinabstimmungsprozess beeinträchtigt. Wir haben verschiedene Konditionierungskontrollen wie Kanten, Tiefe, Segmentierung, menschliche Pose usw. mit stabiler Diffusion, einzelnen oder mehreren Bedingungen, mit oder ohne Eingabeaufforderungen getestet. Wir demonstrieren das robuste Training von ControlNet sowohl für kleine (<50.000) als auch für große (>1 Mio.) Datensätze. Die umfangreichen Ergebnisse legen nahe, dass ControlNet für breitere Anwendungen bei der Steuerung von Bilddiffusionsmodellen nützlich sein könnte.

Fügen Sie hier eine Bildbeschreibung ein

Erfahren Sie mehr über den Forschungsinhalt.
Papiertitel: Adding Conditional Control to Text-to-Image Diffusion Models.
Papieradresse: https://arxiv.org/abs/2302.05543
. Blogartikel: https://github.com/lllyasviel/ControlNet/discussions / 188Holen Sie sich
den Speicherort des Implementierungscodes
Github: https://github.com/lllyasviel/ControlNet

9.Gen-1 veröffentlicht von Runway

Zusammenfassung

Textgesteuerte generative Diffusionsmodelle eröffnen neue Möglichkeiten für leistungsstarke Werkzeuge zur Bilderstellung und -bearbeitung. Während diese Modelle auf die Videogenerierung ausgeweitet wurden, erfordern aktuelle Methoden zum Bearbeiten des Inhalts vorhandenen Filmmaterials unter Beibehaltung der Struktur ein teures Neutraining für jede Eingabe oder basieren auf fehleranfälligen Methoden zur Weitergabe von Bildbearbeitungen zwischen Bildern.
In dieser Arbeit schlagen Forscher ein Videoverbreitungsmodell vor, das sich an der Struktur und dem Inhalt bearbeiteter Videos orientiert und auf visuellen oder textlichen Beschreibungen basiert. Es besteht ein Konflikt zwischen der Bearbeitung von vom Benutzer bereitgestellten Inhalten und der strukturellen Darstellung aufgrund der unzureichenden Entkopplung zwischen beiden. Als Lösung zeigten die Forscher, dass das Training mit monokularen Tiefenschätzungen mit unterschiedlichen Detaillierungsgraden die Kontrolle über die Struktur- und Inhaltstreue ermöglicht. Unser Modell wird gleichzeitig auf Bildern und Videos trainiert und bietet außerdem eine explizite Kontrolle über die zeitliche Konsistenz durch eine neuartige Bootstrapping-Methode. Unsere Experimente zeigen Erfolg an mehreren Fronten: Feinsteuerung der Ausgabefunktionen, Anpassung auf der Grundlage einiger Referenzbilder und starke Benutzerpräferenz für unsere Modellergebnisse.

Fügen Sie hier eine Bildbeschreibung ein

Erfahren Sie mehr über den Forschungsinhalt.
Papiertitel: Structure and Content-Guided Video Synthesis with Diffusion Models.
Papieradresse: https://arxiv.org/abs/2302.03011
. Blogartikel: https://research.runwayml.com/gen1 , https: / /research.runwayml.com/gen2
Den Speicherort des Implementierungscodes abrufen
Die Codeimplementierung für Gen-1 ist derzeit nicht verfügbar.

10.DreamerV3 veröffentlicht von DeepMind und der University of Toronto

Zusammenfassung

Allgemeine Intelligenz erfordert das Lösen von Aufgaben in vielen Bereichen. Aktuelle Reinforcement-Learning-Algorithmen verfügen über dieses Potenzial, sind jedoch durch die Ressourcen und das Wissen begrenzt, die erforderlich sind, um sie an neue Aufgaben anzupassen. Die Forscher schlagen DreamerV3 vor, einen allgemeinen und skalierbaren Algorithmus, der auf Weltmodellen basiert und im Vergleich zu früheren Methoden in verschiedenen Bereichen unter festen Hyperparametern eine bessere Leistung erbringt. Zu diesen Bereichen gehören kontinuierliche und diskrete Aktionen, visuelle und niedrigdimensionale Eingaben, 2D- und 3D-Welten, unterschiedliche Datenbudgets, Belohnungshäufigkeit und Belohnungsgröße. Wir haben beobachtet, dass DreamerV3 gut skaliert werden kann und größere Modelle direkt zu einer höheren Dateneffizienz und Endleistung führen. In praktischen Anwendungen ist DreamerV3 der erste Algorithmus, der in Minecraft Diamanten von Grund auf sammelt, ohne menschliche Daten oder Lehren zu nutzen, eine seit langem bestehende Herausforderung in der künstlichen Intelligenz. Unser allgemeiner Algorithmus macht Verstärkungslernen breit anwendbar und ermöglicht die Skalierung auf komplexe Entscheidungsprobleme.

Fügen Sie hier eine Bildbeschreibung ein

Erfahren Sie mehr über den Forschungsinhalt.
Papiertitel: Mastering Diverse Domains through World Models.
Papieradresse: https://arxiv.org/abs/2301.04104
. Projektadresse: https://danijar.com/project/dreamerv3/
. Holen Sie sich den Standort der Implementierung Code
Github: https://github.com/danijar/dreamerv3

おすすめ

転載: blog.csdn.net/weixin_42010722/article/details/135286258