Réflexion sur la puissance de calcul GPU « Special Express », pratique de la technologie de production de contenu, animation IA, cadre de composition contrôlable multimodal



À l’ère de l’AIGC, grâce à la puissance de l’intelligence artificielle, les créateurs audio et vidéo peuvent concrétiser plus facilement leurs idées créatives. La technologie d'IA peut non seulement fournir un montage audio et vidéo de haute qualité et un traitement d'effets spéciaux, mais également recommander intelligemment des matériaux en fonction des besoins de l'utilisateur, ajuster les effets audio, générer des effets visuels et même ajouter des commentaires passionnants aux vidéos grâce à la technologie de traitement du langage naturel.


Grâce à AIGC, nous inaugurons une ère de création audio et vidéo pleine de possibilités. Les créateurs et les producteurs peuvent utiliser la puissance de l’IA pour créer des œuvres audio et vidéo plus créatives et imaginatives afin de répondre aux demandes changeantes du marché et de promouvoir le développement durable et l’innovation de l’ensemble de la chaîne industrielle de l’audio et de la vidéo.



01

Réflexions fondamentales de l'AIGC sur la philosophie de la puissance de calcul - Sur le passé, le présent et l'avenir du GPU




Wang Wen Yu 

Co-fondateur et CTO de PPIO Pai Ouyun


Actuellement, le GPU est devenu l'une des infrastructures nécessaires au développement du métaverse, de l'intelligence artificielle, des grands modèles de langage et de l'AIGC. Dans ce partage, j'analyserai la vie passée et présente du GPU sous plusieurs dimensions telles que l'histoire, le développement matériel, le développement logiciel et le cours des actions. En même temps, j'analyserai les rancunes entre Nvidia, AMD et Intel, et explorerai des idées pour lever les restrictions américaines à l'exportation de GPU. Et réfléchissez au premier principe (philosophie) derrière tout cela, et faites des prédictions sur les futurs cours des actions de sociétés telles que Nvidia.



02

À l'ère AIGC, Alibaba Cloud Video Cloud

Pratique des technologies de production de contenu multimédia




Zou Juan

Expert technique principal d'Alibaba Cloud Intelligence


La tendance de la vidéoisation et la vague de l'AIGC se heurtent, apportant de nombreux changements dans le domaine de la production de contenu multimédia. Les défis de performance de la couche média deviennent de plus en plus importants, et les scénarios d'application et les exigences d'expérience de la production de contenu multimédia deviennent de plus en plus importants. et plus diversifié.


Ce discours présentera l'architecture technique globale des services multimédias Alibaba Cloud Video Cloud à l'ère AIGC, les technologies clés pour créer un moteur multimédia intégré qui intègre l'IA et le traitement multimédia traditionnel, et comment Alibaba Cloud Video Cloud reconstruit les trois aspects du contenu multimédia. De grands modules (création de contenu, traitement multimédia et gestion des ressources multimédias) mettent en œuvre la technologie AIGC dans des scénarios et des pratiques d'application pertinents.



03

Explorer la mise en œuvre de la fonction d'animation Meitu AI




Li Pianzhen

Expert senior en vision par ordinateur chez Meitu


Avec le développement rapide de l’IA dans le domaine visuel, Meitu espère utiliser la technologie de l’IA pour aider les utilisateurs à mieux produire du contenu. Depuis que le modèle de diffusion a été proposé, des modèles et des outils générant des images basés sur un simple texte de description, tels que DALLE et Midjourney, sont apparus dans l'industrie. Cette année, des outils de production de contenus vidéo comme Runway GEN, PIKA, etc. ont progressivement vu le jour. Les applications AIGC ciblant le contenu vidéo sont confrontées à de nombreux défis en termes de stabilité et de mise en œuvre de la génération vidéo.


Ce partage sera divisé en trois parties. La première partie présente principalement l'application de Meitu dans AIGC, la deuxième partie présente une application vidéo AIGC "AI Animation" publiée par Meitu début avril 23 et analyse l'animation pour les utilisateurs. défis de la création de contenu.La troisième partie présente une partie de l'expérience d'exploration de Meitu sur des questions telles que la stabilité de la génération et l'expérience fonctionnelle.


04

XMusic : multimodal et contrôlable

Cadre de composition universel de haute qualité




Tian Sida

Responsable de la technologie des médias intelligents, Tencent Multimedia Lab 


Ces dernières années, l'AIGC a réalisé de grandes percées dans les domaines du texte et des images. Le contenu généré par l'IA est comparable à celui créé par les humains, mais il n'a pas encore atteint les niveaux humains en termes de génération musicale. D'une part, ils ne peuvent pas contrôler de manière flexible l'expression des émotions et, d'autre part, ils ne peuvent pas garantir la qualité de la musique produite.


Dans ce partage, nous présenterons XMusic, qui prend en charge le contenu modal tel que des images, des vidéos, du texte, des balises et des bourdonnements comme mots d'invite pour générer une musique de haute qualité avec des émotions contrôlables. XMusic réalise l'analyse et le contrôle de l'état du contenu multimodal en créant XProjector, et réalise la génération et la projection de musique en formant XComposer, réalisant enfin un cadre de composition générale de haute qualité contrôlable multimodal. À l'heure actuelle, XMusic a été lancé sur Tencent Cloud et le mini programme officiel. Tout le monde est invité à venir en faire l'expérience.




Conférence sur les technologies audio et vidéo LiveVideoStackCon 2023, gare de Shenzhen

Vous êtes cordialement invités à participer !


Heure : 24 et 25 novembre 2023

Emplacement : Hôtel Shenzhen Sentosa (branche Jade)

Comment obtenir des billets : Scannez le code QR pour acheter des billets, et bénéficiez de réductions pour la participation de groupe !

Demande : 13520771810 (même numéro sur WeChat), [email protected]


Achetez vos billets maintenant




▼Cliquez ci-dessous pour lire le texte original  ▼

Accédez au site officiel de LiveVideoStackCon 2023 Shenzhen Station pour en savoir plus sur les discours passionnants


Cet article est partagé à partir du compte public WeChat - LiveVideoStack (livevideostack).
En cas d'infraction, veuillez contacter [email protected] pour suppression.
Cet article participe au " Plan de création de sources OSC ". Vous qui lisez êtes invités à vous joindre et à partager ensemble.

Alibaba Cloud a subi une grave panne, affectant tous les produits (a été restauré). Le système d'exploitation russe Aurora OS 5.0, une nouvelle interface utilisateur, a été dévoilé sur Tumblr. De nombreuses sociétés Internet ont recruté en urgence des programmeurs Hongmeng . .NET 8 est officiellement GA, le dernier Version LTS Temps UNIX Sur le point d'entrer dans l'ère des 1,7 milliards (déjà entré) Xiaomi a officiellement annoncé que Xiaomi Vela est entièrement open source et que le noyau sous-jacent est .NET 8 sur NuttX Linux. La taille indépendante est réduite de 50 %. FFmpeg 6.1 " Heaviside" est disponible. Microsoft lance une nouvelle "Application Windows"
{{o.name}}
{{m.nom}}

Je suppose que tu aimes

Origine my.oschina.net/u/3521704/blog/10142179
conseillé
Classement