Schwer! OpenAI führt Sprach- und Bildfunktionen in ChatGPT ein

Von: Alpha Rabbit

Treten Sie der NLP-Gruppe bei –> Treten Sie der NLP-Austauschgruppe bei

Nachdruck von der offiziellen Website von OpenAI... Dieser Artikel wird intuitiver, wenn Sie sich das Demo-Videobeispiel ansehen.

Das Kontingent für den Versand von Alpha Rabbit Research Notes ist heute erschöpft...

*Denken Sie daran, bei der Weiterleitung die offizielle Blog-Adresse von OpenAI anzugeben. Fügen Sie am besten weitere Details hinzu.

Bekanntmachung

* Dieser Artikel ist etwa 2233 Wörter lang

ChatGPT kann jetzt sehen, hören und sprechen (openai.com)

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

AI beginnt mit der Einführung neuer Sprach- und Bildfunktionen in ChatGPT. Sie bieten einen neuen, intuitiveren Schnittstellentyp, der es Benutzern ermöglicht, Sprachgespräche zu führen oder ChatGPT zu zeigen, was gesagt wird.

Sprache und Bilder bieten Benutzern mehr Möglichkeiten, ChatGPT in ihrem Leben zu nutzen. Machen Sie auf Reisen ein Foto von einem Wahrzeichen und unterhalten Sie sich in Echtzeit darüber, was daran interessant ist. Machen Sie zu Hause Fotos von Ihrem Kühlschrank und Ihrer Speisekammer, um das Rezept für das Abendessen herauszufinden (und stellen Sie weitere Fragen, um das Rezept Schritt für Schritt zu lernen). Helfen Sie Ihrem Kind nach dem Abendessen, eine Matheaufgabe zu lösen, machen Sie ein Foto, kreisen Sie die gestellte Aufgabe ein und lassen Sie Ihr Kind die Aufgabe mit Ihnen teilen.

OpenAI wird in den nächsten zwei Wochen Sprach- und Bildfunktionen in ChatGPT für Plus- und Unternehmensbenutzer bereitstellen. Die Sprachfunktionalität wird auf iOS und Android verfügbar sein (Opt-in-Einstellungen), und die Bildfunktionalität wird auf allen Plattformen verfügbar sein.

Rechteck Sprechen Sie mit ChatGPT und lassen Sie es antworten

bccafb6bf5d02f826f6603f3c0b68367.png

Jetzt können Benutzer per Spracheingabe Gespräche mit Ihrem Assistenten führen. Sprechen Sie unterwegs mit ihm, bitten Sie um eine Gute-Nacht-Geschichte für Ihre Familie oder schlichten Sie einen Streit am Esstisch.

 Rechteck Sprechen Sie mit ChatGPT und lassen Sie es antworten

Nutzen Sie Ihre Stimme, um mehrere Gespräche mit Ihrem Assistenten zu führen.

Um mit der Verwendung von Sprache zu beginnen, gehen Sie in der Telefon-App zu Einstellungen → Neue Funktionen und wählen Sie Sprachgespräche. Tippen Sie dann auf die Kopfhörertaste in der oberen rechten Ecke des Startbildschirms, um aus fünf verschiedenen Stimmen Ihre Lieblingsstimme auszuwählen.

Die neue Sprachfunktion basiert auf einem neuen Text-to-Speech-Modell, das in der Lage ist, menschenähnliches Audio nur aus Text und einigen Sekunden Sprachproben zu erzeugen. OpenAI arbeitete mit professionellen Synchronsprechern zusammen, um jede Stimme zu erstellen. OpenAI verwendet außerdem Whisper, das Open-Source-Spracherkennungssystem von OpenAI, um das, was Benutzer sagen, in Text umzuwandeln.

Hören Sie sich Sprachbeispiele an

Text auswählen

Hier ist ein Beispiel:

In einem ruhigen Waldgebiet lebte einmal eine flauschige Katzenmutter namens Lila. An einem sonnigen Tag kuschelte sie mit ihrem verspielten Kätzchen Milo im Schatten einer alten Eiche.

„Milo“, begann Lila mit sanfter und sanfter Stimme, „du wirst bald einen neuen Spielkameraden haben.“

Milos Ohren spitzten sich neugierig. „Ein neuer Spielkamerad?“

Lila schnurrte: „Ja, eine kleine Schwester.“

Milos Augen weiteten sich vor Aufregung. "Eine Schwester? Wird sie Schwänzen nachjagen, so wie ich es tue?“

Lila kicherte. „Oh, sie wird ihre eigenen Macken haben. Du wirst es ihr beibringen, nicht wahr?“

Milo nickte eifrig und träumte bereits von den Abenteuern, die sie teilen würden.

(Es war einmal in einem ruhigen Wald eine flauschige Katze namens Lila. An einem sonnigen Tag kuschelten sie und ihr freches Kätzchen Milo im Schatten einer alten Eiche.

„Milo“, begann Lila mit sanfter und sanfter Stimme, „du wirst bald einen neuen Spielkameraden haben.“

Milos Ohren spitzten sich neugierig. „Neuer Spielkamerad?“

Laila schnurrte: „Ja, eine kleine Schwester.“

Milos Augen weiteten sich vor Aufregung. „Schwester? Wird sie ihren Schwanz jagen wie ich?“

Sagte Leila mit einem Lächeln. „Oh, sie wird ihre eigenen Macken haben. Du wirst es ihr beibringen, oder?“

Milo nickte eifrig und freute sich bereits auf die Abenteuer, die sie gemeinsam erleben würden.

Stimme auswählen

Wacholder

Chatten Sie über Bilder

37d2d018039dfb718d544e13e45027f4.png

Benutzer können jetzt ein oder mehrere Bilder in ChatGPT anzeigen. Sie können Fehler bei einem Grill beheben, der nicht startet, den Inhalt Ihres Kühlschranks überprüfen, um Mahlzeiten zu planen, oder komplexe Diagramme für arbeitsbezogene Daten analysieren. Um sich auf einen bestimmten Teil des Bildes zu konzentrieren, können Sie die Zeichenwerkzeuge in der mobilen OpenAI-App verwenden.

Chatten Sie über Bilder

ChatGPT ein oder mehrere Bilder anzeigen.

Um einen Chat zu starten, klicken Sie auf die Fotoschaltfläche, um ein Bild aufzunehmen oder auszuwählen. Wenn Sie iOS oder Android verwenden, tippen Sie zuerst auf die Plus-Schaltfläche. Sie können auch mehrere Bilder besprechen oder die Zeichenwerkzeuge von OpenAI verwenden, um Ihren Assistenten anzuleiten.

Das Bildverständnis wird durch multimodales GPT-3.5 und GPT-4 unterstützt. Diese Modelle wenden Sprachschlussfähigkeiten auf eine Vielzahl von Bildern an, beispielsweise Fotos, Screenshots und Dokumente, die Text und Bilder enthalten.

OpenAI stellt nach und nach Bild- und Sprachfunktionen bereit

Das Ziel von OpenAI ist der Aufbau sicherer und nützlicher AGI. OpenAI ist davon überzeugt, dass die schrittweise Bereitstellung von Tools es OpenAI ermöglichen wird, die Maßnahmen zur Risikominderung im Laufe der Zeit kontinuierlich zu verbessern und zu verbessern und gleichzeitig alle auf leistungsfähigere Systeme in der Zukunft vorzubereiten. Diese Strategie wird in fortgeschrittenen Modellen, die Sprache und Sehen beinhalten, noch wichtiger.

Stimme

Neue Sprachtechnologie – die aus nur Sekunden echter Sprache lebensechte synthetische Sprache erzeugen kann – öffnet die Tür zu vielen kreativen und zugänglichen Anwendungen. Allerdings bringen diese Fähigkeiten auch neue Risiken mit sich, etwa die Möglichkeit, dass böswillige Akteure sich als Persönlichkeiten des öffentlichen Lebens ausgeben oder Betrug begehen.

Aus diesem Grund bringt OpenAi diese Technologie auf den speziellen Anwendungsfall des Voice-Chats. Voice-Chat wird von Synchronsprechern erstellt, die direkt mit OpenAI zusammenarbeiten. OpenAi hat auch ähnliche Kooperationen mit anderen Unternehmen gestartet. Spotify nutzt beispielsweise die Leistungsfähigkeit dieser Technologie, um seine Sprachübersetzungsfunktion zu testen, die Podcastern dabei hilft, ihre Podcasts in andere Sprachen zu übersetzen, um Geschichten mit der eigenen Stimme des Podcasters zu erzählen und so die Reichweite ihres Podcasts zu vergrößern.

Bildeingabe

Visionsbasierte Modelle bringen auch neue Herausforderungen mit sich, die von Halluzinationen von Menschen bis hin zur Abhängigkeit von der Modellinterpretation von Bildern in Hochrisikogebieten reichen. Vor dem breiteren Einsatz testete OpenA das Modell mit Red-Team-Testexperten in Bereichen wie Extremismus und wissenschaftlichen Fähigkeiten sowie mit verschiedenen Testern. Die Forschung von OpenAI ermöglicht es OpenAI, sich an einigen wichtigen Details zu orientieren, um verantwortungsvolle KI-Anwendungen zu ermöglichen.

Machen Sie das Sehen sowohl praktisch als auch sicher

Wie andere Funktionen von ChatGPT wird auch die visuelle Funktion bereitgestellt, um Sie in Ihrem täglichen Leben zu unterstützen. Es funktioniert am besten, wenn es sieht, was der Benutzer sieht.

OpenA arbeitete mit Be My Eyes zusammen, einer kostenlosen mobilen App für Blinde und Sehbehinderte, um deren Einsatzmöglichkeiten und Grenzen zu verstehen, und übernahm diesen Ansatz direkt von ihr. Benutzer haben OpenAI mitgeteilt, dass sie Bilder von Personen, die sich zufällig im Hintergrund aufhalten, für allgemeine Gespräche wertvoll finden, beispielsweise wenn Sie versuchen, eine Fernbedienung einzurichten und eine Person auf dem Fernseher erscheint.

Da ChatGPT nicht immer korrekt ist und diese Systeme die Privatsphäre des Einzelnen respektieren sollten, hat OpenA außerdem technische Maßnahmen ergriffen, um die Fähigkeit von ChatGPT, Personen zu analysieren und direkt mit ihnen zu sprechen, erheblich einzuschränken.

Praxisnahe Nutzung und Feedback werden OpenAI dabei helfen, diese Schutzmaßnahmen noch besser zu machen und gleichzeitig den Nutzen des Tools aufrechtzuerhalten.

Modellbegrenzte Transparenz

Benutzer können sich auf ChatGPT verlassen, um sich mit beruflichen Themen wie Forschungsgebieten zu befassen. OpenAI ist hinsichtlich der Modellbeschränkungen transparent und rät von risikoreichen Anwendungsfällen ohne ordnungsgemäße Validierung ab. Darüber hinaus war das Modell in der Lage, englischen Text zu transkribieren, schnitt jedoch bei einigen anderen Sprachen schlecht ab, insbesondere bei solchen mit nicht-lateinischen Alphabeten. OpenAI empfiehlt nicht englischsprachigen Benutzern, ChatGPT nicht zu verwenden.

Benutzer können mehr über Sicherheitsmethoden und die Arbeit mit Be My Eyes auf der Karte „Bildeingabesystem“ lesen.

OpenAI wird den Zugang erweitern

Plus- und Enterprise-Benutzer werden in den nächsten zwei Wochen Sprach- und Bildfunktionen erleben, und wir freuen uns, diese Funktionen bald dem Rest unserer Benutzerbasis, einschließlich Entwicklern, zur Verfügung zu stellen.


Treten Sie der NLP-Gruppe bei –> Treten Sie der NLP-Austauschgruppe bei

Supongo que te gusta

Origin blog.csdn.net/qq_27590277/article/details/133327631
Recomendado
Clasificación