Se intensifica la involución del modelo grande de IA, por qué SenseTime se involucra

 

En 2023, hay tantos modelos domésticos grandes.

En la actualidad, hay hasta 20 empresas nacionales que han anunciado o están a punto de lanzar modelos a gran escala, y básicamente todas las empresas relevantes que se pueden pensar han entrado en el juego. Entre ellos, no solo hay empresas bien financiadas como BAT, Huawei y Byte, sino también empresas emergentes lideradas por gigantes de Internet como Wang Huiwen, Wang Xiaochuan y Zhou Bowen, así como empresas de IA en campos verticales. como la tecnología Shangtang, iFLYTEK espera.

El 10 de abril, SenseTime lanzó el sistema de modelo a gran escala "SenseNova", que incluye una serie de modelos generativos de IA: modelo de lenguaje grande "Consulta", plataforma Wenshengtu AI "Miaohua", plataforma de generación de video humano digital AI "Ru "Movie", Plataformas de producción de contenido 3D "Qiongyu", "Gewu" y plataforma de anotación de datos de modelos grandes "Mingmu".

En el campo de la opinión pública de modelos grandes, SenseTime no es de alto perfil, sino que movió directamente un conjunto completo de productos modelo a gran escala y abrió rápidamente canales de prueba para empresas. A juzgar por el efecto de la demostración en tiempo real en la conferencia de prensa, no se puede subestimar la fuerza del modelo SenseTime. "Una empresa que se enfoca en CV puede producir un producto tan maduro en LLM, y su equipo de desarrollo es admirable".La opinión de un internauta de Zhihu representa algunas voces externas.

Al mismo tiempo, también aparecieron algunas voces de duda, como la opinión de que es necesario que las empresas de IA unicornio que se centran en la pista de visión artificial (CV) se unan a la diversión y hagan modelos a gran escala. Después de todo, los modelos grandes necesitan quemar grandes cantidades de dinero durante mucho tiempo, y el modelo de comercialización actual es limitado, lo que ejercerá una mayor presión sobre las empresas de IA que registran pérdidas y que aún no son rentables.

Entonces, ¿qué piensa de la entrada de SenseTime en el campo de los modelos multimodales a gran escala? En la cada vez más concurrida competencia "Versión china de ChatGPT", ¿de qué tipo de nicho ecológico único surgirá SenseTime?

 

De grandes instalaciones a grandes maquetas, siempre apuntando al mismo objetivo

Cuando ChatGPT impulsó la industria de la IA a través del "momento iPhone", la versatilidad del modelo grande se verificó con éxito.

Más importante aún, un documento publicado por Microsoft en marzo de este año señaló que "GPT-4 ya puede considerarse como una versión temprana de la inteligencia artificial general". Esta opinión también ha sido reconocida por bastantes profesionales. Algunos de los principales científicos representados por Geoffrey Hinton, el padre del aprendizaje profundo, creen que la inteligencia artificial general (AGI) ya no está fuera de nuestro alcance, pero que puede realizarse gradualmente en décadas.

A continuación, en la dirección determinista del modelo grande, cómo las empresas de inteligencia artificial chinas y extranjeras pueden encontrar el camino que más les convenga se ha convertido en una propuesta clave.

La respuesta de SenseTime a esta pregunta es: seguir firmemente el camino de "instalación grande + modelo grande".

Los amigos que entiendan la estrategia de SenseTime sabrán que el lanzamiento del modelo a gran escala de SenseTime en este momento no es para seguir la tendencia, sino para continuar resolviendo otro nodo clave en el camino hacia la implementación a gran escala de la IA.

Anteriormente, la razón principal de la dificultad de implementar la IA era el modelo de desarrollo de un modelo para cada escenario, lo que generaba altos costos de implementación, una baja tasa de reutilización del modelo y dificultad en la escala y la estandarización. En ese momento, GPT3 con 100 mil millones de parámetros, que salió en 2020, había supuesto un cierto avance en la versatilidad de los modelos grandes. La solución de SenseTime es la misma, arraigándose en la infraestructura subyacente, con la esperanza de lograr versatilidad con una gran cantidad de parámetros × cantidad de datos.

En 2021, SenseTime lanzará SenseCore, un gran dispositivo de IA, y completará una importante expansión en 2022. Las grandes instalaciones de IA pueden entenderse como una gran infraestructura de potencia informática + gran modelo como servicio (Model as a Service).

En la actualidad, el gran dispositivo de IA ha construido un sistema informático paralelo compuesto por 27 000 GPU, logrando una salida de potencia informática de 5,0 exaFLOPS, y actualmente es una de las plataformas informáticas inteligentes más grandes de Asia. El poder de cómputo en el dispositivo grande SenseTime AI puede admitir simultáneamente 20 modelos súper grandes con una escala de 100 mil millones de parámetros y entrenarlos en la escala de kilocalorías al mismo tiempo.

Al mismo tiempo, el dispositivo de IA grande también proporciona modelos grandes como un servicio, incluido el etiquetado automático de datos, entrenamiento paralelo de modelos grandes, implementación de inferencia, etc. En la actualidad, el mayor grupo de dispositivos de IA de gran tamaño consta de 4000 chips conectados en paralelo, que pueden entrenar modelos densos con más de 500 000 millones de parámetros. El objetivo de este año es poder entrenar modelos grandes con más de un billón de parámetros.

 

Con una inversión tan grande, ¿cómo es la aplicación de grandes dispositivos de IA?

En 2022, SenseTime abrirá las capacidades de los grandes dispositivos de IA a los clientes de la industria y ayudará a los clientes a entrenar de manera eficiente modelos grandes al proporcionar recursos informáticos de alto rendimiento, ricas bibliotecas de modelos de entrenamiento previo, herramientas de desarrollo fáciles de usar y soporte técnico profesional. En la actualidad, se han realizado más de 10 tareas de desarrollo de modelos a gran escala, que cubren el desarrollo de modelos a gran escala definidos por el usuario en los campos de visión, lenguaje y multimodalidad.

Después de abrirse a las empresas, los dispositivos de IA a gran escala ya han logrado ingresos a gran escala. Según el informe anual 2022 de SenseTime, en 2022, los ingresos generados por los servicios externos de los grandes dispositivos de IA representarán más del 20 % de los ingresos totales del comercio inteligente (uno de los cuatro principales segmentos comerciales de SenseTime). Basado en los ingresos comerciales inteligentes de 2022 de 1464 millones de yuanes, el gran dispositivo de inteligencia artificial ha generado casi 300 millones de yuanes en ingresos para SenseTime.

Al ver esto, puede comprender un poco, SenseTime no construye un modelo grande desde cero. La razón por la cual varios tipos de modelos a gran escala pueden lanzarse rápidamente en un corto período de tiempo es inseparable de la base de las instalaciones de IA a gran escala. Y, de hecho, el diseño de SenseTime en el campo de los modelos grandes es anterior al de los dispositivos de IA grandes.

 

En el campo de CV, que es el mejor, SenseTime lanzó un gran modelo visual con mil millones de parámetros en 2019. En 2022, el gran modelo visual de SenseTime ha evolucionado a 32 mil millones de parámetros, y también es el modelo visual más grande del mundo hasta el momento.

Desde 2021, SenseTime ha comenzado a desarrollar grandes modelos de PNL y modelos multimodales por sí mismo. En el campo de la PNL, el gran modelo de lenguaje de SenseTime ha alcanzado el nivel de cientos de miles de millones de parámetros.

En el campo de la multimodalidad, en marzo de 2022, SenseTime, junto con el Laboratorio de Inteligencia Artificial de Shanghái, la Universidad de Tsinghua, la Universidad China de Hong Kong y la Universidad Jiao Tong de Shanghái, lanzaron un modelo grande de uso general multimodal y multitarea "Becario (INTERNO)", con 30 mil millones de parámetros. El modelo grande de Shusheng ha sido de código abierto en la plataforma de código abierto de visión general OpenGVLab, y actualmente es el modelo grande multimodal más poderoso en la comunidad de modelos de código abierto.

En el campo de AIGC, SenseTime lanzó un modelo AIGC con mil millones de parámetros, que puede admitir varias funciones de gráficos de Vincent y gráficos generados por gráficos. El modelo de inteligencia para la toma de decisiones SenseTime de AlphaStar, que superó a DeepMind en la competencia de StarCraft, también se integrará en el modelo grande multimodal en el futuro.

" En el futuro, el sistema de modelo a gran escala de inteligencia artificial general de SenseTime cubrirá cuatro aspectos principales: percepción visual, comprensión del lenguaje, generación de contenido y razonamiento y toma de decisiones". Wang Xiaogang, cofundador y científico jefe de SenseTime, dijo .

En la actualidad, los modelos a gran escala de SenseTime se han entregado en más de 20 escenarios en los cuatro sectores principales de ciudad inteligente, negocios inteligentes, automóviles inteligentes y vida inteligente. Por ejemplo, en el campo de la conducción autónoma, el algoritmo de percepción BEVFormer++ desarrollado por SenseTime en el campo de los modelos visuales grandes ganó el campeonato de pista principal del Waymo Challenge 2022 con una ventaja absoluta.

En resumen, el objetivo del modelo a gran escala de SenseTime no es arrebatar el truco de la "versión china de ChatGPT" para usuarios individuales, sino utilizar "dispositivo grande + modelo grande" para acelerar la comercialización de la IA.

El doble motor de "nuevo cada día"

"AGI ha generado un nuevo paradigma de investigación, es decir, basado en un poderoso modelo base multimodal, las nuevas capacidades del modelo base se desbloquean continuamente a través del aprendizaje reforzado y la retroalimentación humana, para resolver tareas abiertas masivas de manera más eficiente. AGI se dará cuenta de' La evolución del volante de datos al "volante de sabiduría" eventualmente conducirá a la inteligencia mutua del hombre y la máquina", dijo Wang Xiaogang, cofundador y científico jefe de SenseTime.

Específico del modelo "Daily New" de SenseTime, la "Teoría de la evolución inteligente" cree que hay al menos dos fuerzas impulsoras para SenseTime:

El primer impulso es empoderar externamente a través de modelos grandes AIGC ricos, incluso a través de API abiertas, para reducir el umbral para aplicar modelos grandes en varias industrias;

En la actualidad, los modelos grandes de la serie "Daily New" de SenseTime solo están abiertos para uso de prueba por parte de usuarios empresariales. Sin embargo, a juzgar por la demostración en tiempo real de la conferencia de prensa, la impresión inicial del modelo grande "Daily New" es que las capacidades generales son integrales, lo que equivale a ningún "mal curso", y es impresionante en términos de generación de video humano digital y generación de contenido 3D Increíble, más allá de las expectativas.

 

El modelo de lenguaje grande ChatGPT de SenseTime "Consulta" tiene un rendimiento fluido en múltiples rondas de diálogo y tiene ventajas en dos subcampos: consulta y programación. Los asistentes de programación pueden ayudar a los desarrolladores a escribir y depurar el código de manera más eficiente; en términos de consulta de salud, "Consulta" es equivalente a una versión de IA de un escritorio de triage de un hospital general, similar a qué síntomas se deben ver en qué departamento, y puede proporcionar a los usuarios asesoramiento personalizado asesoramiento medico. Además, "Consultar" puede leer directamente archivos PDF para extraer información clave, lo que también es muy práctico.

La plataforma de creación de imágenes Vincent "Miaohua SenseMirage" puede admitir la generación de imágenes de alta definición de 6K y también admite modelos de formación y generación definidos por el usuario.

La plataforma de generación de video humano digital de IA "SenseAvatar" solo necesita un material de video en vivo de 5 minutos para generar avatares humanos digitales con voces y movimientos naturales, formas de boca precisas y dominio de varios idiomas, lo que reducirá en gran medida el comercio electrónico. costo de los escenarios de aplicación de alta frecuencia, como la transmisión en vivo y la educación en línea.

 

Las plataformas de generación de contenido 3D "Qiongyu SenseSpace" y "Gewu SenseThings" pueden generar escenas 3D a gran escala y objetos refinados con alta eficiencia y bajo costo, y pueden proporcionar tecnologías de construcción de alta calidad y bajo costo para escenas reales virtuales como Metaverse .

El segundo impulso es fortalecer las ventajas existentes de SenseTime en los campos de CV y ​​percepción visual, y acelerar la implementación de la tecnología de IA.

En el campo de la conducción inteligente, basado en el gran modelo visual, SenseTime desarrolló el algoritmo de percepción BEV (Bird Eye View) para la conducción autónoma, y ​​ganó el campeonato con ventaja absoluta en el Waymo Challenge. Sobre la base de este algoritmo, SenseTime ha desarrollado UniAD, la primera solución integral de conducción autónoma de la industria que integra la percepción y la toma de decisiones, lo que puede aportar capacidades de decodificación más sólidas del entorno, el comportamiento y la motivación a los modelos multimodales de conducción autónoma.

Se informa que "SenseNova" proporciona una variedad de interfaces API y servicios flexibles para clientes gubernamentales y empresariales, incluida la generación de imágenes, la generación de lenguaje natural, las tareas generales de percepción visual y los servicios de etiquetado. Al llamar a la interfaz API, los usuarios empresariales pueden ajustar de acuerdo con el modelo base y realizar varias aplicaciones de IA con umbral bajo, bajo costo y alta eficiencia.

 

De un único punto a una plataforma, cuando la transformación se acelera

Vale la pena señalar que cuando está firmemente comprometido con la ruta "dispositivo grande + modelo grande", SenseTime también se encuentra en un período crítico de transformación de la estructura empresarial.

En la actualidad, el límite comercial de SenseTime no se limita al campo de CV, sino que se está convirtiendo en una empresa general de plataforma básica de IA. Y en el proceso, "dispositivo grande + modelo grande" no debilitó las ventajas originales del campo CV, sino que las mejoró.

Desde el posicionamiento de SenseTime de los dispositivos grandes de IA como "el líder de la infraestructura en la era AGI", se puede ver que SenseTime, el líder de CV Four Tigers en el pasado, ya no es lo que solía ser. Con respecto al avance de la frontera de la industria, Xu Li, presidente y director ejecutivo de SenseTime, dijo una vez a los medios: "Cuando nos demos cuenta de la integración del mundo físico y el mundo digital, la IA se convertirá en una infraestructura que todos pueden usar". no hay necesidad de distinguir entre industrias.”

Sin embargo, el cambio en la estructura empresarial es una prueba más contundente de la transformación. A través del informe anual de 2022, los cuatro negocios principales de SenseTime han mostrado cambios evidentes de "dos altibajos". Entre ellos, los ingresos comerciales de los dos sectores principales de ciudad inteligente y comercio inteligente disminuyeron, mientras que los dos negocios emergentes de vida inteligente y autos inteligentes aumentaron significativamente, mostrando una tendencia de estructura comercial más diversificada y saludable.

Por ejemplo, en 2022, los ingresos del negocio de vida inteligente aumentarán un 129,9 % interanual, alcanzando un máximo histórico, y la proporción de los ingresos totales aumentará del 8,8 % en 2021 al 25,1 %. El negocio de la vida inteligente cubre múltiples líneas de productos, como la generación de contenido de IA (AIGC), los sensores de IA, los chips ISP de IA y la atención médica inteligente, todos los cuales han logrado avances comerciales. En 2022, los ingresos del negocio de coches inteligentes aumentarán un 58,9 % interanual, y la proporción de los ingresos totales aumentará del 3,9 % en 2021 al 7,7 %.

"Ri Ri Xin proviene de "Libro de Ritos·Universidad", y la inscripción de Tang Zhipan dice 'Gou Ri Xin, Ri Ri Xin y Ri Ri Xin'. Es decir, debe actualizarse todos los días, y los nuevos debe ser actualizado. Esto representa el gran modelo de inteligencia artificial. En términos de entrada de datos semanales, se puede actualizar todos los días y la capacidad se puede mejorar todos los días ". Xu Li explicó el origen de la actualización diaria de esta manera en la conferencia de prensa

2023 es el primer año de la explosión de los modelos domésticos de IA a gran escala. Parados en el nodo de tiempo actual, puede ser difícil para nosotros predecir si la futura estructura del mercado en el campo de los modelos a gran escala de IA será un oligopolio o cien flores floreciendo.

Porque esta es una competencia integral a largo plazo que pone a prueba las fortalezas centrales de cada participante, como las reservas de capital, la voluntad estratégica y las capacidades técnicas.

Quizás, no es necesario ni imposible que todos los jugadores sean grandes y completos, y la forma de abrirse paso es concentrar los recursos y enfocarse en modelos grandes con las ventajas más diferenciadas.

Las imágenes en el texto son de Photography Network.

FIN

Este artículo es el trabajo original de "Evolución Inteligente".

Supongo que te gusta

Origin blog.csdn.net/AImatters/article/details/130254370
Recomendado
Clasificación