1. Juliwoche 2023 Sammlung großer Modelle

1. Juliwoche 2023 Sammlung großer Modelle

  • 2023.7.10
  • Copyright-Erklärung: Dieser Artikel ist der Originalartikel des Bloggers chszs und darf nicht ohne die Erlaubnis des Bloggers reproduziert werden.

1. China Telecom veröffentlicht TeleChat-Modell

Auf dem Artificial Intelligence Summit Forum der Global Digital Economy Conference 2023, das kürzlich stattfand, veröffentlichte die China Telecom Group ein großes TeleChat-Modell, das die Ausgabe von Codes und das Schreiben von Reden unterstützt. Das TeleChat-Modell ist ein von der Digital Intelligence Technology Branch der China Telecom Group entwickelter Chat-Roboter, der menschliche Gespräche simulieren und Funktionen wie die Ausgabe von Codes und das Schreiben von Reden unterstützen kann. Das Modell nutzt eine große Menge an Trainingsdaten und Deep-Learning-Technologie, um Benutzern Dienste zur Verarbeitung und Generierung natürlicher Sprache bereitzustellen.

Offizielle Website: https://telechat.ai/ . Schauen Sie sich die offizielle Einführung an und stellen Sie fest, dass es sich um eine übergeordnete Anwendung handelt, eine auf ChatGPT basierende Chat-Anwendung, mit der Benutzer ihre eigenen Chat-Roboter erstellen können. Nach einer kurzen Testphase stellte sich heraus, dass die Funktion heiß war und selbst die Einstellungsfunktion des Chat-Roboters nicht gut funktionierte. Sie schien effektiv zu sein, war aber tatsächlich ungültig. Und der Inhalt der Antwort stammt von ChatGPT und ist gekürzt. Hehe, das sogenannte TeleChat-Modell ist eine leere Hülle.

2. Das Alibaba DAMO Institute hat den großen Modelltest-Benchmark M3Exam veröffentlicht

Mit der Entwicklung großer Modelle, insbesondere der Veröffentlichung vieler großer Open-Source-Modelle, wird die objektive Bewertung verschiedener großer Modelle immer wichtiger. Derzeit besteht die allgemein anerkannte Methode darin, menschliche Testfragen zum Testen des Modells zu verwenden B. um das Modell zu testen. Kenntnisse und Denkfähigkeiten. Für das englische Modell wurde MMLU häufig verwendet, um die Leistung des Modells in mehreren Fächern zu bewerten. In ähnlicher Weise sind kürzlich chinesische Communities wie C-Eval und GAOKAO entstanden, die chinesische Testfragen verwenden, um chinesische große Modelle zu testen. Kürzlich hat die Alibaba DAMO Academy ihren eigenen großen Modelltest-Benchmark M3Exam veröffentlicht. M3Exam ist ein mehrsprachiger, multimodaler, mehrstufiger Testbenchmark, der auf menschlichen Testfragen basiert und insgesamt 12317 Fragen abdeckt. Den Testergebnissen von M3Exam zufolge ist GPT-4 immer noch das leistungsstärkste Modell.

3. Tencent hat die Vektordatenbank Tencent Cloud VectorDB veröffentlicht

Am Nachmittag des 4. Juli veröffentlichte Tencent Cloud offiziell Tencent Cloud VectorDB, eine native KI-Vektordatenbank, die in großem Umfang in Szenarien wie dem Training großer Modelle, Argumentation und der Ergänzung von Wissensdatenbanken verwendet werden kann. Tencent sagte, dass es sich um die erste Vektordatenbank in China handelt, die einen KI-basierten vollständigen Lebenszyklus von der Zugriffsschicht über die Computerschicht bis zur Speicherschicht bietet. Offiziellen Daten zufolge unterstützt die Tencent Cloud Vector Database eine Vektorabrufskala von bis zu 1 Milliarde, und die Verzögerung wird auf Millisekundenebene gesteuert; die Tencent Cloud Vector Database wird zur Klassifizierung, Deduplizierung und Bereinigung großer Modelldaten vor dem Training verwendet. Im Vergleich zu herkömmlichen Methoden kann die Effizienz um das Zehnfache gesteigert werden, während gleichzeitig eine Spitzenleistung von Millionen Abfragen pro Sekunde (QPS) erreicht wird. Wenn die Vektordatenbank als externe Wissensbasis für die Modellinferenz verwendet wird, können die Kosten um 2–4 Größenordnungen reduziert werden.

Vektordatenbanken können die Effizienz erheblich verbessern und Kosten senken, indem sie Daten vektorisieren und diese dann speichern und abfragen. Es kann die Probleme hoher Kosten für das Vortraining großer Modelle, mangelndes „Langzeitgedächtnis“, unzureichende Wissensaktualisierung, komplexes Prompt-Word-Engineering usw. lösen, die Zeit- und Platzbeschränkungen großer Modelle durchbrechen und beschleunigen Implementierung großer Modelle in Industrieszenarien.

Nach offiziellen Angaben verwendet die Videoanwendung von Tencent die Cloud-Vektordatenbank von Tencent für Bilder, Audio, Titeltext und andere Inhalte in der Videobibliothek. Das durchschnittliche monatliche Abruf- und Berechnungsvolumen beträgt bis zu 20 Milliarden, was den Anforderungen von gerecht werden kann Urheberrechtsschutz, Originalidentifikation und Ähnlichkeit. Abruf und andere Szenenanforderungen. Nach Verwendung der Tencent Cloud-Vektordatenbank für QQ Music stieg die Pro-Kopf-Hörzeit von Musik um 3,2 %, die effektive Pro-Kopf-Belichtungszeit von Tencent Video erhöhte sich um 1,74 % und die Kosten des QQ-Browsers wurden um 37,9 % gesenkt. hehe!

4. Huawei hat das Pangu-Wettermodell vorgeschlagen: Die Genauigkeit mittel- und langfristiger Wettervorhersagen übertrifft herkömmliche numerische Methoden

Forscher von Huawei haben ein neues hochauflösendes globales KI-Wettervorhersagesystem vorgeschlagen: das Pangu Meteorological Large Model. Das Pangea Meteorological Large Model ist die erste KI-Methode, deren Genauigkeit die traditionelle numerische Vorhersagemethode übertrifft. Die Vorhersagegenauigkeit von 1 Stunde bis 7 Tagen ist höher als die der traditionellen numerischen Methode (operatives IFS des Europäischen Meteorologischen Zentrums). Ebene globales Wetter Vorhersagen, einschließlich Geopotential, Luftfeuchtigkeit, Windgeschwindigkeit, Temperatur, Meeresspiegeldruck usw. Das meteorologische Modell von Pangu hat eine horizontale räumliche Auflösung von 0,25 x 0,25, eine zeitliche Auflösung von 1 Stunde und deckt 13 vertikale Schichten ab, die feinkörnige meteorologische Merkmale genau vorhersagen können. Als Basismodell kann das Pangu Meteorological Large Model auch direkt auf mehrere Downstream-Szenarien angewendet werden.

5. China Mobile hat das 1+N-Großmodell „Nine Heavens“ herausgebracht

Während der Shanghai Artificial Intelligence Conference am 8. Juli stellte China Mobile das 1+N-Großmodell „Nine Days“ vor. Das große Modell ist eine „Plattform für künstliche Intelligenz“ für allgemeine Intelligenz, die als eine neue Art von Infrastruktur für künstliche Intelligenz positioniert ist und große Modelle für allgemeine Intelligenz und große Industriemodelle für den Hauptteil der Volkswirtschaft trägt, basierend auf einer allgegenwärtigen Computernetzwerkinfrastruktur. um eine hohe Datenqualität zu erreichen.

6. Die GPT-4-API ermöglicht allen kostenpflichtigen API-Benutzern den direkten Zugriff auf den 8K-Kontext

Am 7. Juli gab OpenAI auf seiner offiziellen Website bekannt, dass die GPT-4-API vollständig zur Nutzung geöffnet ist. Jetzt können alle kostenpflichtigen API-Benutzer ohne Wartezeit direkt im 8K-Kontext auf GPT-4 zugreifen. Darüber hinaus hat OpenAI auch GPT-3.5 Turbo, DALL E und Whisper API eingeführt. Feinabgestimmte Versionen des sicheren und zuverlässigen GPT-4 und GPT-3.5 Turbo werden später in diesem Jahr ebenfalls verfügbar sein.

7. Das Shanghai Artificial Intelligence Laboratory und SenseTime haben das Open-Source-Modell InternLM-7B veröffentlicht

Am 6. Juli veröffentlichten das Shanghai Artificial Intelligence Laboratory und SenseTime auf der Weltkonferenz für künstliche Intelligenz 2023 ein brandneues und verbessertes „Scholar General Model System“ und prahlten damit, dass das „Scholar“-Modell (Intern) mehr als 130 Bewertungen gewonnen hat Die Leistung hat das weltweit führende oder fortgeschrittene Niveau erreicht, und es wird behauptet, dass das aktualisierte „Scholar·Puyu“ das erste offiziell veröffentlichte große Sprachmodell mit 100 Milliarden Parametern in China ist, das eine Kontextlänge von 8K unterstützt.

Das Shanghai AI Lab hat das Open-Source-Modell InternLM-7B veröffentlicht. Der chinesische Name lautet „Scholar·Puyu“, ein großes Modell, das 7 Milliarden Parameter enthält. Laut dem Entwickler ist „InternLM ein mehrsprachiges Sockelmodell mit 100 Milliarden Parametern, das auf über Billionen Token-Daten trainiert wird. Durch mehrstufiges progressives Training verfügt das InternLM-Sockelmodell über ein hohes Maß an Wissen und kann Leseverständnis auf Chinesisch und Englisch lesen.“ Es weist eine hervorragende Leistung in Szenarien auf, die ein starkes Denkvermögen erfordern, wie z. B. Denkaufgaben, und weist eine hervorragende Leistung in einer Vielzahl umfassender Prüfungen für Menschen auf.“ Der Quellcode ist Open Source unter dem Apache-2.0-Protokoll und völlig offen für akademische Forschung. Kommerzielle Nutzung bedarf einer offiziellen schriftlichen Genehmigung.

おすすめ

転載: blog.csdn.net/chszs/article/details/131637633