La IA redefine el "nuevo paradigma" de la productividad de audio y vídeo

Nota del editor: AIGC es sin duda un tema y una escena candente en este momento. Ante los cambios tecnológicos y los desafíos de potencia informática que plantea la IA, ¿cómo debemos responder? La estación LiveVideoStackCon 2023 de Shanghai invitó a Wu Lei, vicepresidente de Netcom, a compartir con nosotros la experiencia práctica de Netcom frente a los escenarios de aplicaciones de IA y las necesidades comerciales.

Texto/Wu Lei

Editar/Pila de videos en vivo

Hola a todos, el tema que comparto hoy es la IA que redefine el "nuevo paradigma" de la productividad de audio y video.

El contenido compartido se divide principalmente en tres partes: ①La IA lidera la actualización del consumo de contenido; ②La capacitación en "nube" y el razonamiento "lateral" son la arquitectura óptima; ③La evolución de la arquitectura de audio y video de Wangxin.

-01-

La IA lidera la mejora del consumo de contenidos

El primero es el vídeo de contenido. En los últimos años, la expresión y creación de toda la sociedad se ha transformado y mejorado a través del vídeo. Desde la perspectiva humana, el cerebro procesa información visual 60.000 veces más rápido que el texto, y las ayudas visuales pueden aumentar la eficiencia del aprendizaje hasta en un 400%. Esto confirma la popularidad de las narraciones en vídeo a nivel científico. Desde la perspectiva de toda la escala de usuarios de vídeo en China, se ha multiplicado por 3,5 en los 12 años transcurridos entre 2010 y 2022. En 2022, la escala de usuarios audiovisuales en línea también superó oficialmente la mensajería instantánea y se convirtió en la aplicación más grande del mundo. Internet. El tiempo de uso de los usuarios de Internet móvil puede reflejar mejor esta tendencia: en 2019, el tiempo total de uso de los usuarios de vídeos cortos todavía está un 15% por detrás de la mensajería instantánea.

El segundo punto es que es necesario mejorar la eficiencia del contenido de vídeo de alta calidad. El contenido de vídeo, desde artículos web hasta cómics y películas, ha producido muchos casos de negocio exitosos. Douluo Dalu se publicó por primera vez en el sitio web chino Qidian. En 2018, el número de visitas superó los 60 millones. Durante este período también se adaptaron animaciones. Con una amplia audiencia, generó una facturación acumulada de más de 10 mil millones después de la gamificación. También está la conocida serie Ghost Blowing Lantern, la película "Looking for the Dragon" fue adaptada y estrenada en 2015, protagonizada por Chen Kun y Huang Bo, con una taquilla de 1.680 millones, convirtiéndose en la tercera taquilla de películas chinas. ese año.

La videoización de IP de alta calidad tiene beneficios económicos muy importantes, pero en términos de eficiencia de la videoización, todavía hay mucho margen de mejora. Por ejemplo, convertir una propiedad intelectual en una película requiere una gran inversión en pulido de guiones, casting, preparación de utilería, rodaje, postproducción, publicidad, tiempo y mano de obra. Tomando como ejemplo la literatura china, las obras que entrarán en adaptación de propiedad intelectual en 2022 son menos del 0,5% de las obras recién agregadas. Con la incorporación de la tecnología de IA, en guiones, edición, doblaje, efectos especiales, carteles y otros enlaces, las herramientas de IA se pueden utilizar bien para lograr la generación automática y mejorar la eficiencia.

El tercer punto es la innovación integral de AI + audio y video. Ya existen aplicaciones muy maduras en diversos aspectos como imágenes, música, doblaje, vídeo e interacción.

Con las recientes huelgas en Hollywood, la preocupación de actores y guionistas por ser sustituidos por la IA se ha ido haciendo realidad: la revolución tecnológica supone la reorganización de la industria y la redistribución de beneficios.

Tomando como ejemplo la producción de juegos, con el apoyo de AIGC, se ha construido gradualmente un nuevo modelo creativo y valor de contenido. Específicamente: 1. AIGC puede proporcionar ideas para la generación creativa, al tiempo que mejora la calidad de la imagen y la interactividad. 2. Mejorar la eficiencia de la producción de juegos. Todos conocemos "Yuan Shen", tomó alrededor de 2 años desde el establecimiento del proyecto hasta las pruebas en línea. Si se usa IA en algunos enlaces, de hecho puede mejorar la eficiencia de la producción del juego. La eficiencia del trabajo de los enlaces se ha incrementado hasta en 90%. 3. Reducción de costos: debido a la reducción de personal y de tiempo invertido, el costo de producción se puede reducir considerablemente. 4. Iteraciones de juegos para ayudar a la innovación de juegos.

Según datos de una encuesta de terceros, el costo promedio de I + D de la industria de los juegos representa aproximadamente el 25% de los ingresos. Si se utiliza IA, el costo de producción se puede optimizar en aproximadamente 26,6 mil millones de yuanes, y el 40% del costo de I + D se puede optimizar . optimizarse. Esto incluye vínculos como diseño artístico, pruebas automatizadas y producción de efectos de sonido.

Del texto al vídeo, el nivel de usuario ha aumentado exponencialmente. El promedio de usuarios de literatura china que pagan mensualmente en 2022 será de 7,9 millones, mientras que la aplicación de vídeo iQiyi por sí sola tendrá más de 100 millones de usuarios miembros y los usuarios de Douyin alcanzarán la asombrosa cifra de 809 millones. Las características del video son que el contenido se puede escuchar, ver e interactuar fuertemente con él. Tiene una amplia cobertura de grupos de usuarios. Desde la transformación de textos web en audio y video, el valor de la propiedad intelectual de textos web se amplía aún más. Con la incorporación de la IA se genera una gran cantidad de personajes virtuales, se genera una fuerte interacción y se sientan las bases para la llegada del metaverso.

El consumo de contenidos pasa de texto a audio y vídeo, y el costo de producción de contenidos ha pasado de los precios unitarios de mano de obra en el pasado a los precios de la potencia informática. En el pasado, el doblaje, la producción de animación y la producción de dramas cinematográficos y televisivos todavía eran desarrollo de juegos y el costo principal era la inversión en personal. Sin embargo, en el modo AIGC, el costo promedio de la potencia informática está determinado principalmente por el rendimiento de la GPU, la relación entre el costo de capacitación y el costo de inferencia es de aproximadamente 1: 9. Tomando Midjourney como ejemplo, aproximadamente el 10% del costo de la nube se utiliza para capacitación. y el 90% lo hacen los usuarios.Razonamiento de la imagen.

La inversión en IA, si bien supone un salto en la calidad de la producción, está detrás de la brecha en la potencia informática. El análisis de OpenAI muestra que de 2012 a 2019, la potencia informática utilizada para el entrenamiento de IA se duplicará cada 3,5 meses. En comparación con la Ley de Moore, que se duplica cada 18 meses, la demanda de potencia informática se ha multiplicado por 300.000 en siete años. Detrás de la enorme demanda de potencia informática está el alto costo de la potencia informática. Tomando como ejemplo la capacitación GPT3, el costo de una sola sesión de capacitación asciende a 4,6 millones de dólares estadounidenses y el costo operativo mensual correspondiente a las operaciones diarias llega a 10 millones de dólares estadounidenses.

-02-

El razonamiento "de vanguardia" del entrenamiento en la "nube" es la arquitectura óptima

De hecho, la informática de punta no debe ser una industria impulsada por la construcción y la competencia por la densidad de capital: basada en una oferta fragmentada, tendrá un fuerte efecto de plataforma.

Los recursos de nube, borde y terminal a los que Wangxin ha llegado a través de reclutamiento cooperativo + autoconstrucción + construcción conjunta, etc. Este es también el recurso de borde que Wangxin ha estado expandiendo desde varios canales desde 2015. Con un suministro estable de recursos, el trabajo central de la capa intermedia es la gobernanza y estandarización de recursos heterogéneos. A través de un proceso de acceso unificado y el soporte de una plataforma en contenedores con decenas de millones de nodos, se puede realizar una programación razonable y una aplicación eficiente de los recursos. ser logrado. La capa superior es nuestra matriz de productos de solución. Actualmente, Wangxin tiene dos escenarios maduros: plataforma informática de borde y solución de aceleración de ancho de banda basada en recursos de borde.

El posicionamiento de Wangxin es ser un proveedor de servicios de computación en la nube de borde, brindando soporte para cualquier escenario de demanda de potencia informática en el futuro; en el escenario de potencia informática, hemos construido una plataforma de infraestructura robusta, flexible y de alta disponibilidad. A través de servicios de programación inteligentes Puede resultar más económico y económico satisfacer las necesidades de los clientes en escenarios como el razonamiento de IA, la conducción autónoma y la Internet industrial.

Esperamos que al proporcionar los recursos subyacentes del extremo, la nube central realice entrenamiento de modelos, iteración de algoritmos, etc., para obtener un modelo de razonamiento adecuado y colocarlo en el borde para el modelado de datos. Por ejemplo, recientemente cooperamos con un fabricante de vehículos eléctricos para intentar cambiar el razonamiento de los modelos de voz inteligentes desde la nube hasta el borde.

A continuación, hablemos de los cambios provocados por la nueva arquitectura.

En primer lugar, la integración de múltiples nubes requiere combinar las capacidades de la nube central y la nube perimetral, y lograr una conexión perfecta entre la capacitación y el razonamiento a través de la exploración y la práctica.

En segundo lugar, la vista de recursos se actualiza a una vista de servicios. No solo actuamos como proveedores de recursos, sino que también practicamos y brindamos servicios relacionados.

En tercer lugar, la distribución de potencia informática multicapa de la nube perimetral reúne potencia informática dispersa, heterogénea, multinivel e inactiva.

En cuarto lugar, la reducción de los retrasos y el aumento de la interacción traerán más demandas de inmersión y "presencia", y será necesario aumentar la correspondiente acumulación técnica.

Sobre esta base, proponemos la arquitectura IAAS+ . La capa inferior es la cooperación entre la nube central y la nube perimetral mencionada anteriormente para proporcionar una mejor gestión de recursos; la capa intermedia conecta los modelos de código abierto y de código cerrado a través de la plataforma de alojamiento del modelo; la capa superior es la capa de aplicación, incluida la capa final. aplicaciones de terminal de extremo a extremo, etc.

Sobre la práctica del AIGC. Intentamos hundir la potencia informática requerida por algunos módulos comerciales en AIGC desde el centro a los nodos de borde. Por supuesto, los datos todavía se envían de vuelta al almacenamiento central en la actualidad. En el futuro, esperamos almacenarlos directamente en el edge para lograr una colaboración real desde el extremo de la nube.

-03-

La evolución de la arquitectura de audio y vídeo de Wangxin.

El estallido de AIGC permitirá generar más contenido en el borde y, al mismo tiempo, generará la demanda de baja latencia.

En un escenario de transmisión en vivo, una transmisión debe dividirse en múltiples transmisiones y distribuirse a los nodos de borde más cercanos al usuario. Cuando se necesita la transmisión en el lado de reproducción, se encuentran múltiples nodos de borde para extraer múltiples subcorrientes para sintetizar el final. transmisión en vivo. Este proceso está relativamente maduro en la actualidad, ya sea en términos de QoS o QoE, no es muy diferente de la forma tradicional.

En la actualidad, tenemos dos requisitos: 1. La calidad es la misma que la de la fábrica de la nube, incluida la fluidez, la calidad de la imagen, el retraso, etc., 2. El costo garantiza que el borde debe atender más del 80% del tráfico. . En términos de puntos técnicos clave, la nube es responsable de iniciar y retroceder, y el borde es responsable de los canales de transmisión multienlace y la optimización de la transmisión de la red.

En el proceso de optimización de doble extremo, utilizamos la evaluación de la capacidad de la red en el lado del usuario para realizar la asignación de ancho de banda para un solo enlace, a través de la evaluación de la calidad en tiempo real entre el usuario y cada enlace y la falla redundante multicanal FEC. -Mecanismo tolerante, minimizamos la retransmisión.

En los juegos en la nube, los requisitos de latencia son mayores. Cuanto más cerca esté el terminal de acceso del jugador, menor será el retraso. El servicio de programación inteligente del centro de red puede lograr una cobertura óptima de acuerdo con la distancia de la red y devolver la lista de nodos óptima mediante la programación para lograr una menor latencia.

Aquí, hablemos sobre la creación de servicios informáticos de vanguardia basados en Serverless. El contenido se genera en el borde y el borde debe ser útil. El contenido se distribuye en el borde y la acumulación de tecnología de latencia ultrabaja debe ser útil.

El contenido está proliferando en el borde y es necesario organizarlo. Nuestro pensamiento actual es que la nube central tiene dificultades prácticas sin servidor, pero solo es necesaria en la nube perimetral, por lo que debemos aprovechar al máximo las ventajas de la combinación de nuevos negocios + terminal + sin servidor.

Como líder mundial en informática de punta, Netcom ha estado profundamente involucrado en la informática de punta desde 2015. Actualmente, cuenta con los recursos de red de vanguardia y la riqueza y heterogeneidad de los recursos son muy suficientes.

En cuanto a la dirección de la futura evolución empresarial de Wangxin, se trata aproximadamente de una estrategia de tres pasos:

El primer paso es reducir los costos y aumentar la eficiencia , adoptar métodos más eficientes y una mejor asignación de recursos, y promover una expansión saludable de las empresas.

El segundo paso es la iteración funcional , que se acumula continuamente en escenarios de potencia informática y explora y practica gradualmente escenarios comerciales y modelos comerciales que realmente pueden ejecutarse.

El tercer paso es construir una ecología , promover la superposición de redes de borde y potencia informática, conectar escenarios industriales y realizar la comercialización de escenarios industriales, y construir una plataforma de red abierta para atraer desarrolladores y socios para construir una ecología conjuntamente.

Lo anterior es mi participación, ¡gracias a todos!

LiveVideoStackCon es el escenario para todo técnico multimedia. Si está a cargo de un equipo o empresa, tiene años de práctica en un determinado campo o tecnología y está interesado en los intercambios técnicos, le invitamos a postularse para ser productor/conferencista de LiveVideoStackCon.

Escanee el código QR a continuación para ver las condiciones de solicitud de profesor, los beneficios para profesores y otra información. Envíe el formulario en la página para completar la solicitud de instructor. El comité organizador de la conferencia revisará su información lo antes posible y se comunicará con los candidatos calificados.

Escanea el código QR de arriba

Complete el formulario de solicitud de instructor

La IA redefine el "nuevo paradigma" de la productividad de audio y vídeo

Supongo que te gusta