El modelo grande de Xiaomi reformula un nuevo paradigma de capacidades de IA

Ubicada en la intersección de los cambios tecnológicos, la tecnología con la inteligencia como núcleo está desencadenando una nueva ola de tecnología. Bajo la ola, la tecnología de modelos grandes ha dado nueva luz al desarrollo de la IA, y Xiaomi es el cazador de luz en la ola.

En la noche del 14 de agosto, Lei Jun anunció la actualización de la estrategia tecnológica de Xiaomi en su discurso anual: cultivo profundo de la tecnología subyacente, inversión continua a largo plazo, integración profunda de software y hardware y empoderamiento integral de la IA, resumidos en la fórmula ( software × hardware) ᴬᴵ. Como la primera empresa de tecnología en colocar la IA en una posición secundaria, Xiaomi considera la tecnología de IA, incluidos los modelos grandes, como un tipo de productividad, y realmente la integra en los negocios y productos para potenciar la producción y la vida.

93cda84a5a6745b1fbfd3081d4d4362c.png

En este discurso, se dio a conocer oficialmente el modelo grande de desarrollo propio de Xiaomi. Lei Jun anunció que el principal avance de la tecnología de modelos grandes de Xiaomi es la "implementación local liviana", lo que permite a los usuarios disfrutar de una protección de datos segura mientras cuentan con la tecnología avanzada aportada por los grandes. modelos fuerzas productivas. Vale la pena mencionar que el modelo grande de desarrollo propio de Xiaomi ha alcanzado el primer lugar en el mismo nivel de parámetros en las recientes listas de evaluación autorizadas chinas C-EVAL y CMMLU ; el modelo grande de extremo final de teléfono móvil de desarrollo propio de Xiaomi pasó inicialmente , y algunos El efecto de la escena es comparable al de la nube.

85b7e4545db9c3efd9329632bc105e75.png

Entonces, ¿qué es un modelo grande? ¿Por qué Xiaomi fabrica un modelo grande? ¿Cuáles son los aspectos más destacados de los modelos grandes de Xiaomi? Hoy estamos aquí para contarte la respuesta.

01

Decodificando modelos grandes

Desde la aparición de ChatGPT, las excelentes capacidades de comprensión y generación de modelos grandes han sido sorprendentes, y cada vez se exploran más sus usos. En la actualidad, parece que muchas tareas tradicionales de procesamiento del lenguaje natural se pueden completar con él, como búsqueda, traducción, preguntas y respuestas, resumen, extracción y clasificación de información y escritura. En la vida diaria, para todos los servicios basados ​​en el diálogo, como servicio al cliente, educación, consultas, guías turísticos, etc., los modelos grandes representados por ChatGPT tienen un cierto uso.

Los modelos grandes se refieren a modelos de aprendizaje automático con una gran cantidad de parámetros y estructuras jerárquicas complejas. Estos modelos suelen tener entre miles de millones y cientos de miles de millones o incluso billones de parámetros y están entrenados con grandes cantidades de datos para proporcionar una mayor comprensión y capacidades de generación.

Desde el punto de vista de Xiaomi, un modelo grande no solo significa que el modelo tiene muchos parámetros y es de gran tamaño, sino que, lo que es más importante, representa un nuevo paradigma de entrenamiento . Lo resumimos en: big data, grandes tareas y grandes parámetros .

aa3bbd76902387639b064072ce41ccc4.png

-Big  data: se refiere a la necesidad de utilizar cantidades masivas de datos para el entrenamiento para que el modelo pueda extraer automáticamente la información requerida. Por lo general, se utilizan métodos de aprendizaje autosupervisados ​​​​o no supervisados ​​para refinar reglas y aprender conocimientos sin anotaciones manuales, mejorando así la visión del modelo.

-Tareas grandes  : se refiere a objetivos de aprendizaje que son lo suficientemente complejos y cubren una amplia gama de temas. De esta manera, se puede "forzar" el modelo a organizar los puntos de conocimiento de manera modular, con alto agrupamiento y bajo acoplamiento, y lograr la capacidad de generalización para extraer inferencias de un ejemplo a otros casos.

-Grandes  parámetros: se refiere a la capacidad de conocimiento del modelo. Cuanto mayor sea la escala de parámetros de un modelo grande, más fuertes serán las capacidades de expresión y aprendizaje del modelo.

En este paradigma, creemos que los big data y las grandes tareas son indispensables. Sin big data, el modelo no puede aprender sentido común rico; sin grandes tareas, los puntos de conocimiento y habilidades no se pueden organizar de manera orgánica y eficiente en el modelo.

02

Diseño de inteligencia artificial.

Haz todo lo posible para romper con el gran modelo.

▍Uso de la IA como piedra angular para acumular tecnología

Basándose en su pensamiento y comprensión de la industria y los tiempos, Xiaomi elige direcciones estratégicas que tienen valor a largo plazo para la civilización humana e insiste en una inversión sostenida y a largo plazo. Hemos establecido 12 campos técnicos y 99 vías subdivididas y en los próximos cinco años (2022-2026) invertiremos al menos más de 100 mil millones en fondos de investigación y desarrollo. Esto fortalecerá la competitividad central, construirá firmemente un foso e inyectará fuerza creciente al progreso y desarrollo futuro de la sociedad humana.

4263b96788904d0798f1ee8735b32a15.png

La IA es la productividad del futuro y también es la vía subyacente en la que Xiaomi ha seguido invirtiendo durante mucho tiempo. Xiaomi ha estado diseñando inteligencia artificial durante mucho tiempo. En 2016, se estableció Xiaomi AI Lab y se estableció el primer equipo de IA visual. En abril de este año, se estableció un gran equipo de modelos a tiempo completo. Después de 7 años y 6 expansiones. El equipo de inteligencia artificial de Xiaomi cuenta con más de 3000 personas que han establecido gradualmente capacidades de tecnología de inteligencia artificial en visión, habla, acústica, gráficos de conocimiento, PNL, aprendizaje automático y multimodalidad.

3b2f5f15079f97bcaf2356ee87864665.png

Para convertirse en un competidor en la ola, es necesario acumular tecnología. Como "campo de prueba" y "depósito de municiones" de la tecnología de inteligencia artificial de Xiaomi, Xiaomi AI Lab desarrollará tecnologías de vanguardia a mediano y largo plazo, hará reservas en torno al negocio de Xiaomi y producirá "municiones" cuando el grupo las necesite. El profundo conocimiento de Xiaomi sobre la inteligencia artificial y las capacidades técnicas también ha fortalecido de manera efectiva a varios sectores comerciales, como los teléfonos móviles y los robots.

Los modelos grandes son la tendencia de desarrollo de la tecnología futura y el próximo hito de la inteligencia artificial. Desde 2021, Xiaomi ha prestado especial atención a la dirección de modelos grandes y ha realizado trabajos previos a la investigación sobre modelos de diálogo de gran tamaño. En el contexto del chat y la conversación, Xiaomi desarrolló un modelo de diálogo con una escala de parámetros de 2.800 millones, apoyándose en Xiao Ai, un asistente de voz inteligente con más de 115 millones de usuarios activos mensuales, logrando los mejores resultados de la industria en ese momento con la misma escala de parámetros. Esto ha acumulado experiencia en capacitación distribuida con múltiples tarjetas para Xiaomi, sentando las bases para la capacitación posterior de modelos de lenguaje a gran escala.

291a63231a54da8e5489fb54f379dffb.png

▍Modelo grande de Xiaomi : implementación local y liviana

Los grandes modelos de uso general requieren datos masivos y una enorme potencia informática, y el costo de uso también es alto. Ante esta situación, ¿cómo sale Xiaomi?

La oportunidad de Xiaomi está en el lado del dispositivo. Hasta el primer trimestre de 2023, la plataforma AIoT de Xiaomi ha conectado 618 millones de dispositivos (excluyendo teléfonos inteligentes, tabletas y computadoras portátiles), lo que la convierte en la plataforma IoT de consumo líder en el mundo. Hay varios dispositivos y diferentes escenarios de uso, lo que dificulta que un modelo grande se encargue de todos ellos. Consideramos que en la mayoría de los escenarios y áreas verticales, es posible que no se necesite un modelo tan grande. En un modelo base más pequeño, el uso de datos comerciales para una personalización profunda debería poder satisfacer las necesidades de los usuarios. Además, si algunas capacidades del modelo grande se transfieren al lado del cliente, no solo se puede proteger mejor la privacidad del usuario, sino que también existe la oportunidad de lograr una personalización personalizada para miles de personas a nivel local.

No perseguimos ciegamente la escala de los parámetros del modelo, sino que consideramos integralmente el equilibrio entre el efecto, la eficiencia y el costo de uso, combinamos software y hardware y conectamos el ecosistema. Esta es la solución óptima para combinar la tecnología de modelos grandes con la ecología de Xiaomi, y También es la base para que Xiaomi brinde a los usuarios una experiencia única. Por lo tanto, el "implementación local liviana" es la principal dirección innovadora de la tecnología de modelos grandes de Xiaomi.

0b66411f1d6b31ae1b5297774a1a5c9a.png

Actualmente, nuestro modelo del lado del dispositivo de desarrollo propio con 1.300 millones de parámetros se ha ejecutado con éxito en teléfonos móviles y los efectos de algunas escenas son comparables a los resultados informáticos de 6.000 millones de modelos en la nube. En comparación con las soluciones de modelos móviles a gran escala lanzadas anteriormente al mercado, Xiaomi ajustará la estructura del modelo y el tamaño de los parámetros para adaptarse a las características de memoria y potencia informática de varios chips para lograr un mejor consumo de energía, velocidad de inferencia y efectos de generación. balance.

44f2e43651dd94d5c78c6f79241fb44c.jpeg

03

Diseño de inteligencia artificial.

Haz todo lo posible para romper con el gran modelo.

▍Datos propios para entender mejor a Xiaomi

En términos de datos, los datos de entrenamiento que extrajimos y compilamos nosotros mismos representaron el 80%, de los cuales los datos comerciales y de productos de Xiaomi ascendieron a 3 TB. Por lo tanto, nuestro modelo grande comprende mejor los productos y el negocio de Xiaomi.

▍El mejor equilibrio entre eficiencia y eficacia

Estructuralmente, realizamos mejoras basadas en nuestra comprensión de la estructura del Transformador e integramos nuestra propia experiencia práctica; también consideramos completamente los requisitos característicos del chip del lado del dispositivo y establecimos razonablemente el ancho y la profundidad del modelo para lograr el mejor equilibrio de eficiencia. y efecto.

▍Más estrategias y menos desperdicio

En términos de estrategia de entrenamiento, el optimizador ScaledAdam y el programador de tasa de aprendizaje Eden propuestos por Xiaomi se utilizan para mejorar significativamente la velocidad de convergencia y reducir el desperdicio de memoria de video en el optimizador. Debido a la capacidad de conocimiento limitada del modelo, es necesario organizar el orden de los datos de entrenamiento de manera más delicada para que el modelo pueda dominar tantos puntos de conocimiento y habilidades como sea posible y reducir el desperdicio de parámetros, logrando así "aligerar".

▍Proteger la privacidad y seguridad del usuario

Una vez que el modelo se implementa en el lado del cliente, no es necesario cargar la información en la nube. Todos los cálculos se realizan localmente, lo que fundamentalmente puede garantizar que no se filtre la privacidad del usuario. Incluso bajo un marco de servicio que combina dispositivos y nubes, la información privada se almacenará en el lado del dispositivo y los cálculos que la involucran se completarán en el lado del dispositivo tanto como sea posible. Incluso si ocasionalmente es necesario utilizar el poder de la nube, la información será procesada y cifrada.

04

Mirando el cielo estrellado tecnológico

Experiencia en el terreno

A partir del 10 de agosto de 2023, el modelo de lenguaje preentrenado a gran escala de desarrollo propio de Xiaomi, MiLM-6B, tiene una escala de parámetros de 6.4 mil millones, ocupando el primer lugar entre los modelos grandes con la misma escala de parámetros en las listas de evaluación autorizadas chinas C-EVAL y CMMLU .

f7eec973524fe70fec5dd9c973e44607.png

En la evaluación C-Eval, MiLM-6B obtuvo una puntuación promedio de 60,2, ocupando el décimo lugar en la lista general y el primero en la misma categoría de parámetros .

"C-Eval" es un conjunto completo de evaluación china para modelos básicos construido conjuntamente por la Universidad Jiao Tong de Shanghai, la Universidad de Tsinghua y la Universidad de Edimburgo. Consta de 13.948 preguntas de opción múltiple, que cubren 52 temas diferentes y cuatro niveles de dificultad, abarcando cuatro direcciones principales: humanidades, ciencias sociales, ciencias e ingeniería, y otras especialidades, para ayudar a la comunidad china a desarrollar grandes modelos.

En la evaluación CMMLU, las puntuaciones promedio del MiLM-6B en las pruebas de cinco disparos y cero disparos fueron 57,17 y 60,37 respectivamente, ocupando el primer lugar entre los modelos chinos .

"CMMLU" es un punto de referencia integral de evaluación de modelos grandes chinos, que cubre 67 temas, desde disciplinas básicas hasta niveles profesionales avanzados, que involucran ciencias naturales, ciencias sociales, humanidades y conocimientos generales, etc., y se utiliza específicamente para evaluar el desempeño de los modelos de lenguaje. en modelos de lengua china, conocimientos y habilidades de razonamiento en contexto.

A través del ranking hemos comprobado el efecto que puede lograr nuestra tecnología de mejora específica en áreas verticales específicas, que también es una capacidad esencial para la personalización empresarial utilizando modelos livianos. Aunque el modelo grande de Xiaomi ha logrado excelentes resultados, no equipararemos la clasificación de la lista con la experiencia del usuario. Detrás de los buenos resultados lo más importante es pulir la tecnología, acumular la metodología, aplicarla a los productos y mejorar la experiencia del usuario es nuestro objetivo final.

-

La tecnología debe centrarse en resolver problemas, centrándose en las necesidades y aplicaciones. El modelo grande de Xiaomi adopta una solución de "implementación local liviana", que puede resolver mejor las necesidades personalizadas y de múltiples escenarios de los usuarios. Por un lado, no hay necesidad de preocuparse por "red débil o falta de red" cuando se ejecutan modelos grandes localmente, y la velocidad de respuesta es rápida y el uso es estable; por otro lado, al tiempo que proporciona servicios más personalizados, puede También protege mejor la privacidad del usuario y permite que la tecnología mejore realmente la experiencia del usuario y haga que los resultados sean realmente efectivos.

69927c4668306ad3faf8d9a10a80f4cf.png

En el futuro, Xiaomi ampliará la escala del modelo, continuará explorando soluciones de modelos grandes que combinen dispositivos y nubes, e integración multimodal, y las integrará con Xiaoai, el sistema operativo móvil MIUI, IoT, robots, automóviles y otras empresas para mejorar. La comprensión de Xiaoai: con la capacidad de reconocimiento de comandos domésticos inteligentes, etc., brinda a los usuarios una experiencia inteligente más personalizada, permitiendo que todos en el mundo disfruten de la maravillosa vida que brindan los modelos grandes.

87dcd40a2ff11c0ff2ce8f61d0ae0667.gif

95863c21a38f2c7173f25387c2a7604c.png

Supongo que te gusta

Origin blog.csdn.net/pengzhouzhou/article/details/132463396
Recomendado
Clasificación