Wöchentliche Entwicklung der Audio- und Videotechnologie | 304

Einmal pro Woche ein Überblick über die Trockenware im Bereich Audio- und Videotechnik.

Nachrichtenbeitrag: [email protected].

00d6a3859a9afcf8a6b00b4d30f36351.png

Das stärkere Llama 2 ist Open Source und kann direkt kommerziell genutzt werden: Über Nacht hat sich das Layout des großen Modells geändert

Meta hat endlich Llama 2 veröffentlicht, die lang erwartete kostenlose und im Handel erhältliche Version.

6.000 Fragebögen enthüllten berufliche Ängste und Chancen im KI-Zeitalter|Laden Sie den Bericht herunter

Die Entwicklung großer KI-Modelle ändert sich von Tag zu Tag, von ChatGPT zu GPT4 und dann zu immer mehr Branchenmodellen. Die Technologie der künstlichen Intelligenz, von der wir einst dachten, sie sei weit von uns entfernt, scheint einen kritischen Punkt erreicht zu haben, und zwar genau dort waren technologische „Entstehung“ und Fähigkeit zum „Sprung“. In den Ergebnissen der amerikanischen Schein-Anwaltsprüfung kann GPT-4 in den oberen 10 % oder so platziert werden, verglichen mit dem Ergebnis von GPT-3.5, das nur in den unteren 10 % platziert werden kann. Viele Menschen befürchten immer mehr, dass ihre zukünftige Karriere ersetzt wird, was zu mehrdimensionalen Karriereängsten führt.

a31dee3e8933592e01b719166ffc26fb.png

Hinter dem ersten KI-Update der Händler: Alimama Wanxiang Lab schlägt hart zu

Das Alimama Wanxiang Lab bietet Händlern neue KI-Funktionen, mit denen sie Modelle ohne Kosten anpassen, Szenen ohne Kosten erstellen und hochwertige Produktkarten in Stapeln in 30 Sekunden erstellen können. Derzeit haben Anta, Partikelfieber (Partikelfieber), L'Occitane, VERMO, ZIWU und andere große und kleine Unternehmen dies erlebt und führen Unternehmen der gesamten Branche in eine neue Ära der KI.

450a6ce53df754c474c8a457032b2f4a.png

Zusammenfassung der Unternehmen der IGBT-Branche und Wissenserwerb

IGBT, Insulated Gate Bipolar Transistor, ist ein zusammengesetztes, vollständig gesteuertes, spannungsgesteuertes Leistungshalbleiterbauelement, das aus einem Bipolartransistor (BJT) und einem Feldeffekttransistor (MOS) mit isoliertem Gate besteht und außerdem über ein Metalloxid-Halbfeld (MOSFET) verfügt. Die Vorteile beider die hohe Eingangsimpedanz des effektiven Transistors und der niedrige Leitungsspannungsabfall des Leistungstransistors (GTR).

Realisierung eines ultraschnellen programmierbaren zweidimensionalen Atomkristall-Homoübergangs | Fortschritt

Zweidimensionale Atomkristalle zeichnen sich durch einstellbare Bandlücke, hohe Mobilität, niedrige Dielektrizitätskonstante und neuartige Spin- und Energietäler aus. Mithilfe dieser hervorragenden Eigenschaften zweidimensionaler Atomkristalle ist es möglich, Informationsfunktionsgeräte der nächsten Generation zu entwickeln. Bauen Sie dabei integrierte Schaltkreise auf. Der pn-Übergang ist das grundlegendste Bauelement in der modernen Elektronik und Optoelektronik. Der Aufbau eines zweidimensionalen atomaren Kristall-pn-Übergangs hat wichtige Forschungsbedeutung für die zukünftige Entwicklung elektronischer Geräte auf der Basis zweidimensionaler Kristalle.

Die Herausforderung der Chip-Wärmeableitung ist dringend!

Die von Halbleitern abgegebene Leistung erzeugt Wärme, die aus dem Gerät abgeführt werden muss. Wie dies jedoch effizient erfolgen kann, wird immer schwieriger.

Wärme ist die Verschwendung von Halbleitern. Dieses Phänomen tritt auf, wenn Strom in Geräten und Leitungen verloren geht. Strom wird verbraucht, wenn Geräte umgeschaltet werden, was bedeutet, dass er von der Aktivität abhängt, und fehlerhafte Geräte und Kabel verschwenden ständig Strom. Design ist selten perfekt, und ein gewisses Maß an Hitze entsteht durch Aktivitäten, die Funktionen ausführen, die nicht benötigt werden. Aber irgendwann muss das Designteam herausfinden, wie es die Wärme ableiten kann, denn wenn das nicht gelingt, wird die Lebensdauer des Produkts sehr kurz sein.

Interview mit Chris Miller | War of the Chips: Der Kampf um die kritischste Technologie der Welt

Der Kampf um die Kontrolle über die Halbleiterindustrie ist heute eine der wichtigsten Wirtschaftsgeschichten der Welt. Ob China den Vereinigten Staaten und ihren demokratischen Verbündeten die Vorherrschaft im Halbleiterbereich entreißen kann, wie es dies in vielen anderen High-Tech-Industrien getan hat, wird weitgehend über die militärische Balance dieses Jahrhunderts entscheiden. Und um die Grundsituation dieses epischen Kampfes zu verstehen, ist das beste Buch „War of the Chips: The Competition for the World's Most Critical Technology“ des Historikers Chris Miller von der Tufts University.

Im Interview beantwortete Miller ein breites Spektrum an Fragen zu Exportkontrollen, Chinas Bemühungen, dem Chipgesetz, dem Bedarf der USA an Halbleiterarbeitern, Japans Versuch, seine eigene Chipindustrie wiederzubeleben und mehr.

https://www.noahpinion.blog/p/interview-chris-miller-historian

ca02adeed62dcce6b528a0938c7a1e1c.jpeg

CVPR 2023 | Nanyang Technological Institute und SenseTime schlugen E3DGE vor: 2D-Bilder können in Sekundenschnelle 3D-Bilder erzeugen

Auf der CVPR 2023 schlugen Forscher des S-Lab des Nanyang Technological University-SenseTime Joint Laboratory eine Encoder-basierte schnelle 3D-GAN-Inversionsmethode vor, die auf die bestehende 3D-GAN-Inversionsmethode abzielt, die Rekonstruktionsgeschwindigkeit, Rekonstruktionsqualität und Bearbeitungsqualität nicht berücksichtigen kann. Problem Es wird ein selbstüberwachtes 3D-GAN-Inversions-Trainingsframework vorgeschlagen. Gleichzeitig wird eine hochpräzise und bearbeitbare 3D-Rekonstruktion durch die Konstruktion einer global-lokalen Multiskalenstruktur und eines 2D-3D-Hybrid-Ausrichtungsmodells erreicht. Diese Methode passt sich an SoTA-3D-GAN-Modelle an, einschließlich StyleSDF und EG3D, und hat in mehreren Benchmark-Tests hervorragende Ergebnisse erzielt.

Probleme mit filterbasierten Methoden in SLAM und wie Parameter angepasst werden?

Dieser Artikel wurde von Zhihu mit hervorragenden Fragen und Antworten organisiert. Als der Proband den Inhalt im Zusammenhang mit der Slam-Back-End-Filterung übte, stellte er beim Lesen mehrere Probleme fest, z. B. „Die Formel des Papiers unterscheidet sich von der tatsächlichen Code-Implementierung“. Papier und die Durchführung des Experiments. Fragen, die ihn verwirren. Der Artikel fasst einige hervorragende Antworten auf diese Frage zusammen und hofft, die Leser zu inspirieren.

3d9bfc9ebdeb13e84d13a24c252a29ab.png

ICASSP 2023 | Mehrstufige räumliche Kontextmodelle zum Erlernen der Bildkomprimierung

Modernste Methoden zum Erlernen der Bildkomprimierung nutzen räumliche Kontextmodelle und erzielen enorme Verbesserungen bei der Ratenverzerrung im Vergleich zu hochmodernen Methoden. Allerdings erfordern autoregressive Kontextmodelle eine serielle Dekodierung, was die Laufzeitleistung einschränkt. Das Checkerboard-Kontextmodell ermöglicht eine parallele Dekodierung auf Kosten einer verringerten RD-Leistung. In diesem Artikel schlagen wir eine Reihe mehrstufiger räumlicher Kontextmodelle vor, die eine schnelle Dekodierung und eine bessere RD-Leistung erreichen können.

UniColor: Ein einheitliches Framework für multimodale Farbgebung mit Transformer

In diesem Artikel wird ein multimodales einheitliches Farbframework vorgeschlagen, das die Eingabe von Strichen, Beispielen und Textaufforderungen sowie die teilweise Bearbeitung unterstützt. Das Farbnetzwerk wird durch die Konvertierung von drei verschiedenen Formen der Eingabeaufforderung in Eingabeaufforderungspunkte vereinheitlicht und besteht aus zwei Teilen: Chroma-VQGAN und Hybrid-Transformer. Dabei wird Chroma-VQGAN zur Merkmalsextraktion und -rekonstruktion verwendet, indem Graustufenkanäle und Farben kombiniert werden Der Kanal wird verarbeitet separat, um mehr Graustufendetails zu erhalten, und der Hybrid-Transformer konzentriert sich auf die Farbgebung. Abschließend soll eine Anwendungsschnittstelle entworfen werden, um die Wirksamkeit des einheitlichen Frameworks im praktischen Einsatz zu demonstrieren.

0b446c3f523ef29ad1f51cbc7d859dac.png

DCVC-DC | Neuronale Videokomprimierung mit mehreren Kontexten

Das Prinzip eines Video-Codecs besteht darin, dass der Codec für das aktuell zu kodierende Signal relevanten Kontext (z. B. verschiedene Vorhersagen als Kontext) aus dem zuvor rekonstruierten Signal findet, um räumlich-zeitliche Redundanz zu reduzieren. Je relevanter der Kontext ist, desto höher sind die Einsparungen bei der Bitrate. Bei den meisten neuronalen Videocodecs (NVC) sind die Möglichkeiten der Kontextextraktion und -nutzung jedoch noch begrenzt.

Dieses Papier erhöht die Kontextvielfalt in zeitlicher und räumlicher Dimension, um die NVC weiter zu verbessern. In der zeitlichen Dimension leitet dieses Papier das Modell an, um hierarchische Qualitätsmuster über Frames hinweg zu lernen, die zeitliche Fernkorrelation in Videos weiter auszunutzen und das in den meisten NVCs bestehende Problem der Qualitätsverschlechterung wirksam zu lindern.

patchVVC: ein Echtzeit-Komprimierungsframework für das Streaming volumetrischer Videos

Heutzutage ist volumetrisches Video eine ansprechende Multimedia-Anwendung, die Benutzern ein äußerst immersives Seherlebnis bietet. Das Streaming volumetrischer Videos ist jedoch äußerst bandbreitenintensiv. Daher ist die effiziente Komprimierung der zugrunde liegenden Punktwolkenrahmen für die Bereitstellung volumetrischer Videos von entscheidender Bedeutung. Bestehende Komprimierungstechniken sind entweder 3D-basiert oder 2D-basiert, weisen jedoch immer noch Mängel in der praktischen Umsetzung auf. 2D-basierte Methoden komprimieren Videos besser, sind aber langsamer, während 3D-basierte Methoden schneller, aber weniger komprimiert sind. In diesem Artikel schlagen wir patchVVC vor, ein 3D-basiertes Komprimierungsframework, das sowohl ein hohes Komprimierungsverhältnis als auch eine Echtzeit-Dekodierungsgeschwindigkeit erreicht. Noch wichtiger ist, dass patchVVC auf der Grundlage von Punktwolken-Patches entwickelt wurde, wodurch es für adaptive Streaming-Systeme mit Sichtfeld geeignet ist und den Bandbreitenbedarf weiter reduziert. Die Auswertungsergebnisse zeigen, dass patchVVC in adaptiven Streaming-Szenarien im Sichtfeld eine vergleichbare Echtzeit-Dekodierungsgeschwindigkeit und ein vergleichbares Komprimierungsverhältnis wie das repräsentative 2D-basierte Schema V-PCC erreicht.

https://dl.acm.org/doi/10.1145/3587819.3590983

d90a1db205433d56030a46c2b3a7355b.png

Forscher zerlegen Schall präzise in drei Grundkomponenten

Diese Erkenntnisse aus der Hörwahrnehmung werden mit Fuzzy-Logik kombiniert: Zu jedem Zeitpunkt kann ein Teil des Klangs zu einer der drei Kategorien Sinusförmig, Transient oder Rauschen gehören, nicht nur zu einer von ihnen. Für eine perfekte Rekonstruktion hat Fierro die Aufschlüsselung des Klangs optimiert.

Forscher entwickeln das Audio-Plug-in VIRTUOSO, um immersiven 3D-Audio über Kopfhörer zu erleben

Nach mehr als fünf Jahren eines hochmodernen Forschungsprojekts können Toningenieure nun wirklich immersiven 3D-Sound über Kopfhörer erleben, ohne dass Lautsprecher erforderlich sind.

Das Applied Psychoacoustics Lab (APL) unter der Leitung von Dr. Hyunkook Lee an der University of Huddersfield hat ein immersives Audio-Plugin namens VIRTUOSO entwickelt.

ICASSP 2023 Redneranerkennungspapiersammlung

ICASSP (International Conference on Acoustics, Speech and Signal Processing) ist die internationale Konferenz für Akustik, Speech und Signalverarbeitung. Es handelt sich um die weltweit größte und umfassendste Spitzenkonferenz zur Signalverarbeitung und ihren Anwendungen, die vom IEEE veranstaltet wird. Großer akademischer Einfluss.

Unter den für ICASSP 2023 in diesem Jahr ausgewählten Arbeiten befinden sich etwa 64 Arbeiten in Richtung Sprechererkennung (Voiceprint Recognition), die zunächst in Speaker Verification (31 Papers), Speaker Recognition (9 Papers), Speaker Diarization (17 Papers) unterteilt sind ), Anti-Spoofing (4), andere (3) fünf Typen.

742da81e9a2e4f4cda6812ce926401e8.png

Virtuelle Mensch- und Bewegungserfassungstechnologie der Station B

Mit der Popularität virtueller Moderatoren auf Plattformen wie Bilibili entwickeln immer mehr Benutzer und Moderatoren ein starkes Interesse an virtuellen Live-Übertragungen. Der realistische 3D-Virtual-Mensch verfügt nicht nur über herausragende visuelle Effekte, sondern bietet auch ein immersives Live-Übertragungserlebnis, das den Benutzern ein völlig neues Seherlebnis beschert. Beispielsweise hat Ling Yan Huan, ein von Douyin ins Leben gerufener hyperrealistischer virtueller 3D-Moderator, seit seinem Debüt in einer Woche mehr als 600.000 Fans, die Zahl der Videoaufrufe im gesamten Netzwerk hat 100 Millionen überschritten, und der Live-Übertragungsraum hat dies auch getan überschritt die Marke von einer Million Zuschauern. Es wird erwartet, dass 3D-realistische virtuelle Menschen in Zukunft ein Markttrend im Bereich der virtuellen Live-Übertragung werden.

Diskussion zur Schätzung der VisionPro Eye Tracking-Genauigkeit

In diesem Artikel geht es um die Genauigkeitsmessung des VisionPro-Eye-Trackings und anschließend um den Unterschied zur direkten Betrachtung mit bloßem Auge sowie um den Vergleich von Eye-Tracking-Daten anderer Unternehmen der Branche.

MicroOLED für AR/VR Insight Report

Der Bericht basiert auf den Forschungsergebnissen der Polizeiindustriekette, einschließlich: AR/VR-Kernanforderungen und Kerntechnologien, AR/VR-Bildschirmklassifizierung, Eigenschaften und Entwicklungstrends, AR/VR mit MicroOLED-Geschichte, AR/VR mit MicroOLED-Produktprognose , globale MicroOLED-Umsatzprognose, globales MicroOLED-Industriekettenpanorama, MicroOLED-Kernlieferkette, Apple-Brillen-MicroOLED-Lieferkette, Rokid-Brillen-MicroOLED-Lieferkette usw.

8d8074b1e58f967f7fcd893686ec6510.png

Forbes Review Apple Glasses: Ausverkauft, sobald es auf den Markt kam

Ganz gleich, ob Sie es instinktiv lieben oder verabscheuen: Es eröffnet neue Möglichkeiten für das Markenerlebnis, die Interaktion und den Konsum von Markeninhalten. Daher sollten zukunftsorientierte Marken in jeder Branche aufmerksam sein.

Ausführlicher Bericht zur Branche der künstlichen Intelligenz: Das große KI-Modell stärkt Tausende von Branchen

AI+Office ist die Hauptnutznießerrichtung dieser AIGC-Welle. Der Wendepunkt dieser AIGC-Welle ist, dass ChatGPT, ein Texterstellungstool, das auf der Technologie zur Verarbeitung natürlicher Sprache großer Modelle basiert, sich schnell zu einer weltweit beliebten Anwendung auf Phänomenebene entwickelt hat und dann auf der Anwendung multimodaler großer Modelle basiert auf Bild, Video, Audio usw. Machen Sie schnell Werbung. AIGC, also generative künstliche Intelligenz, ist natürlich eine KI-Technologie für Inhaltserstellungsszenarien wie Text, Audio, Video und Bilder. Daher kann sie die Produktleistung verschiedener Arten vorhandener Bürosoftware direkt verbessern und so die Iteration fördern Upgrade der Bürosoftware.

3b375168cc71fd675ef5f904624be279.png

Interview mit Hao Jie, CTO von Minglue Technology: Auch das große Modell wird untergraben und der kritische Punkt des Produkts muss gefunden werden!

Bevor die neue Technologie tatsächlich eine unglaubliche transformative Wirkung entfaltet, gibt es oft eine Lücke des „Hypes“, die weder lang noch kurz ist: Einige Neueinsteiger stürmen vorwärts und genießen es; während einige Spieler langsamer werden und überdenken, wie sie sich vom Wert abheben können der Innovation. 

Wie kann das große Modell also den von der Öffentlichkeit und der Branche erwarteten Wert erreichen? Wie baut man ein Branchenmodell auf? Und wie beurteilt man die Qualität großer Modellprodukte?

Bloomberg: Entwickler sind vorsichtig bei der Entwicklung der Vision Pro-App

Mark Gurman von Bloomberg weist in einer neuen Folge von Power On darauf hin, dass Apps von Drittanbietern zwar entscheidend für den Erfolg von Apples Vision Pro gewesen seien, die teure Preisgestaltung und der Nischencharakter des Geräts jedoch dazu führten, dass es immer noch viele Probleme gäbe. Das wird es aber nicht geben Zunächst war eine große Anzahl von Entwicklern daran beteiligt.

Gurman glaubt jedoch, dass Entwickler für die visionOS-Version der Anwendung mehr verlangen können, da Vision Pro-Benutzer eine Gruppe sind, die bereit ist, Geld auszugeben. Von diesen sieht er 20 US-Dollar als Ausgangspunkt für die Preisgestaltung einer kostenpflichtigen App, wobei die meisten dieser Apps zwischen 50 und 250 US-Dollar kosten, insbesondere in den Kategorien Grafikdesign oder Produktivität.

Klicken Sie auf Originaltext lesen  

Weitere Informationen finden Sie auf der offiziellen Website der LiveVideoStackCon 2023 Shenzhen Station

Supongo que te gusta

Origin blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/132013862
Recomendado
Clasificación