Modelo GenAI ágil medio: IA práctica para aplicaciones empresariales de campo vertical

Nota del editor: en el campo de la inteligencia artificial, la escala de modelos ha aumentado en los últimos años y la escala de parámetros se ha disparado. Desde los 175 mil millones de GPT-3 hasta el rumoreado GPT-4, que puede llegar a la asombrosa cifra de 1,8 billones de parámetros. Sin embargo, a medida que la escala del modelo continúa expandiéndose, también surgen problemas como altos costos de capacitación, gran impacto ambiental y difícil implementación de aplicaciones. Por lo tanto, la industria comenzó a reflexionar sobre la dirección del desarrollo y la importancia de los modelos supergrandes.

En este contexto nació la "IA ágil". La IA ágil se refiere a modelos más pequeños con decenas de miles de millones o incluso miles de millones de parámetros. Tienen ventajas significativas en términos de costo de capacitación e impacto ambiental, y pueden adaptarse rápidamente a los nuevos requisitos de las aplicaciones mediante ajustes y actualizaciones continuos.

Este artículo primero aclara la definición de IA ágil y analiza sus diferencias con los modelos de IA gigantes desde múltiples dimensiones. Los autores sostienen que la IA ágil puede alcanzar parcialmente el nivel de capacidad de los modelos gigantes, proporcionando un mejor rendimiento de costes en muchas aplicaciones prácticas. Al mismo tiempo, el artículo profundiza en tres factores clave que promueven el desarrollo de una IA ágil. Finalmente, el artículo resume las ventajas de la IA ágil, argumentando que representa una nueva dirección para el desarrollo de la IA.

La IA ágil es un concepto completamente nuevo que puede liderar una nueva ola de desarrollo de tecnología de IA. Si está interesado en las perspectivas de desarrollo de la inteligencia artificial, este artículo tiene puntos de vista y conocimientos únicos y vale la pena leerlo.

La siguiente es la traducción, ¡disfrútala!

Autor | Gadi Cantante

Compilar | Yue Yang

Después de una década de rápido crecimiento en la complejidad y la carga computacional de los modelos de inteligencia artificial (IA), esta situación finalmente cambió en 2023, centrándose en la eficiencia y la aplicación de la inteligencia artificial generativa (GenAI). Por lo tanto, ha surgido un lote de nuevos modelos de IA con menos de 15 mil millones de parámetros, llamados IA ágil (IA ágil), que pueden rivalizar con las capacidades de los modelos gigantes estilo ChatGPT con más de 100 mil millones de parámetros en campos verticales específicos. Dado que GenAI se ha utilizado ampliamente en diversas industrias, también está aumentando el uso de modelos pequeños y altamente inteligentes. Es previsible que en un futuro próximo la aplicación de GenAI en China presente un patrón de un pequeño número de modelos gigantes y un gran número de modelos de IA pequeños y más ágiles.

Aunque el modelo grande ha logrado grandes avances hasta ahora, en términos de costos de capacitación y costos ambientales, cuanto más grande sea el modelo, mejor. Según las estimaciones de TrendForce[1], el costo de capacitación de GPT-4 de ChatGPT por sí solo supera los 100 millones de dólares estadounidenses, mientras que el costo de capacitación previa del modelo ágil (modelo ágil) es varios órdenes de magnitud menor (por ejemplo, el MPT- La cotización 7B de MosaicML es de unos 20 millones de dólares[2]). La mayor parte del costo computacional se consume en el proceso de inferencia continua, lo cual es un desafío importante para modelos más grandes que requieren un uso computacional particularmente intensivo. Además, los enormes modelos alojados en terceros también plantean desafíos de seguridad y privacidad.

Los modelos ágiles son mucho menos costosos de ejecutar y tienen una variedad de ventajas adicionales como adaptabilidad, flexibilidad de hardware, integrabilidad dentro de aplicaciones más grandes, seguridad (seguridad) y privacidad (privacidad), explicabilidad (explicabilidad), etc. (ver Figura 1). También está cambiando la percepción de que los modelos más pequeños son inferiores a los más grandes. Los modelos más pequeños y más enfocados no significan que sean menos inteligentes: pueden ofrecer un rendimiento igual o mejor en los dominios comerciales, de consumo y científicos, agregando valor e invirtiendo menos tiempo y dinero.

El rendimiento de cada vez más modelos ágiles se ha acercado gradualmente al modelo gigante de nivel ChatGPT-3.5, y el rendimiento y el alcance de la aplicación continúan mejorando rápidamente. Además, cuando el modelo ágil puede utilizar datos privados en el dominio profesional y recuperar el contenido de la página web de acuerdo con los requisitos de la consulta, su precisión y rentabilidad pueden superar a los del modelo general gigante.

Figura 1. Fortalezas del modelo ágil de GenAI. Crédito de la imagen: Laboratorios Intel

El modelo ágil de código abierto GenAI continúa impulsando un rápido progreso en el campo, y esta tecnología revolucionaria como el "momento del iPhone" está siendo desafiada por una "revolución de Android" similar a medida que brillantes investigadores y comunidades de desarrolladores contribuyen entre sí. Nuestro trabajo de código abierto, estamos creando modelos ágiles cada vez más capaces.

01 Pensar, practicar, comprender: los modelos ágiles para dominios específicos pueden alcanzar parcialmente la capacidad de los modelos gigantes

Figura 2. Categorías de capacidad de IA generativa. Crédito de la imagen: Laboratorios Intel

Para comprender mejor cuándo y cómo los modelos más pequeños pueden impulsar la IA generativa, es importante tener en cuenta que, ya sea un modelo ágil o un modelo GenAI gigante, se requieren los siguientes tres tipos de capacidades para completar la tarea:

  • Habilidades cognitivas para pensar : incluida la comprensión del lenguaje, el resumen, el razonamiento, la planificación, el aprendizaje de las lecciones aprendidas, la expresión extensa y el diálogo interactivo.
  • Competencia práctica en habilidades específicas : por ejemplo, leer datos textuales diversos y complejos en el mundo real, leer gráficos/imágenes, realizar reconocimiento visual, programación (escribir y depurar código), generación de imágenes y voz, etc.
  • Capacidades de acceso a la información (memoria o recuperación en tiempo real) : contenido web, incluidas redes sociales, noticias, informes de investigación y otro contenido general; o contenido curado de un dominio específico, como datos médicos, financieros y corporativos.

1.1 Habilidades cognitivas para pensar

Dependiendo de las capacidades cognitivas que posee un modelo, puede "pensar" y comprender, generalizar, sintetizar, razonar y organizar el lenguaje y otras representaciones simbólicas. Tanto los modelos ágiles como los gigantes funcionan bien en estas tareas cognitivas y no está claro si estas capacidades centrales requieren modelos de gran tamaño. Por ejemplo, modelos ágiles como Orca [3] de Microsoft Research han demostrado capacidades de comprensión, lógica y razonamiento que igualan o incluso superan a ChatGPT en múltiples puntos de referencia. Además, Orca demuestra que las habilidades de razonamiento se pueden extraer de modelos grandes utilizados como modelos docentes.

Sin embargo, los puntos de referencia actuales para evaluar las habilidades cognitivas de los modelos son rudimentarios. Se necesitan más investigaciones y evaluaciones comparativas para verificar si los modelos ágiles pueden lograr las capacidades de "pensamiento" de los modelos gigantes mediante un entrenamiento previo o un ajuste fino.

1.2 Habilidad práctica

Dado que el modelo gigante generalmente se posiciona como un modelo versátil, puede tener más habilidades y conocimientos. Sin embargo, en la mayoría de las aplicaciones comerciales, sólo se requiere del modelo una cierta gama de habilidades. Los modelos de aplicaciones empresariales deberían ser ágiles y escalables para adaptarse al crecimiento empresarial futuro y a los diversos cambios de la demanda, pero rara vez parecen requerir una cantidad infinita de habilidades.

GPT-4 puede generar texto, código e imágenes en múltiples idiomas, pero dominar cientos de idiomas no significa necesariamente que estos modelos gigantes tengan más ventajas en la capacidad cognitiva subyacente, principalmente logran más al aumentar el número de habilidades. Habilidad de hacer muchas cosas a la vez.

Además, cuando se requieren funciones específicas, se pueden conectar motores funcionalmente especializados (motores funcionalmente especializados) con el modelo GenAI, como agregar el complemento matemático "Wolfram superpowers [4]" a ChatGPT como módulo, que puede proporcionar de manera efectiva Excelentes capacidades matemáticas sin aumentar el tamaño del modelo. Por ejemplo, los complementos de GPT4 utilizan esencialmente modelos pequeños para implementar funciones adicionales. Se rumorea que el modelo GPT-4 en sí también es una colección de múltiples modelos expertos mixtos con menos de 100 mil millones de parámetros [5], que están entrenados para diferentes datos y tareas, en lugar de modelos independientes como el modelo gigante GPT-3.5.

Para lograr conjuntos de habilidades óptimos y eficiencia del modelo, los futuros modelos multifuncionales pueden emplear modelos de "expertos mixtos" más pequeños y más enfocados, esencialmente cada uno con menos de 15 mil millones de parámetros.

Figura 3. Los modelos basados ​​en recuperación para extensión funcional pueden proporcionar un gran alcance funcional e información más relevante, que es en gran medida independiente del tamaño del modelo. Crédito de la imagen: Laboratorios Intel

1.3 Capacidades de adquisición de información (memoria interna o recuperación en tiempo real)

Los modelos enormes "saben" más al memorizar grandes cantidades de datos dentro de su espacio de parámetros, pero esto sólo les da un conocimiento más completo que los modelos más pequeños y no necesariamente los hace más inteligentes. En entornos de disparo cero donde todos los casos de uso son nuevos, los modelos gigantes son de gran valor. En ausencia de escenarios u objetivos específicos, los megamodelos pueden proporcionar conocimientos básicos a la mayoría de los consumidores y servir como modelos docentes a la hora de refinar y ajustar los modelos ágiles. Sin embargo, los modelos ágiles entrenados o ajustados para dominios específicos pueden proporcionar mejores capacidades para dominios o escenarios específicos.

Figura 4. El mecanismo de recuperación permite que los modelos pequeños rivalicen en valor con los modelos más grandes (utilizando el método de recuperación Contriever). Crédito de la imagen: Intel Labs, basado en una investigación de Mallen y otros [6].

Por ejemplo, un modelo entrenado para escenarios de programación tiene un enfoque de capacidad diferente al de un modelo de sistema de IA médico. Además, la precisión del modelo y la puntualidad del contenido se pueden mejorar enormemente realizando la recuperación de conjuntos de datos internos y externos seleccionados. Un estudio reciente [6] muestra que en el punto de referencia PopQA [7], un modelo con solo 1,3 mil millones de parámetros puede alcanzar el nivel de un modelo con 175 mil millones de parámetros después de usar la función de recuperación (ver Figura 4). En comparación con el sistema gigante omnipotente, un sistema modelo específico con conocimiento de dominio relevante y capacidad de recuperación eficiente tiene mayor usabilidad y escalabilidad. Esto es más importante para la mayoría de las empresas, porque la mayoría de las empresas necesitan utilizar conocimiento de dominio específico en lugar de conocimiento general básico en la aplicación de modelos grandes. Aquí es donde entra en juego el valor del modelo ágil.

02Tres factores que favorecen el crecimiento explosivo de los modelos ágiles

Hay tres áreas a considerar al evaluar la solidez y el valor de los modelos ágiles:

  1. Es eficiente en un modelo de tamaño moderado .
  2. Licenciamiento como software de código abierto o propietario.
  3. Los modelos pueden diseñarse para que sean generales y puedan hacer frente a diversas tareas y necesidades, o pueden optimizarse especialmente para dominios o tareas específicas, y también pueden tener una función de recuperación, es decir, pueden acceder a conjuntos de datos internos o externos para mejorar la Precisión y efecto del modelo.

En términos de tamaño del modelo, los modelos ágiles generales como LLaMA-7B y -13B[8] de Meta, los modelos de código abierto Falcon 7B[9] de Technology Innovation Institute, MPT-7B[10] de MosaicML, los modelos Orca-Propietario de Microsoft Research como 13B [11] y XGen-7B [12] de Salesforce AI Research están mejorando rápidamente (consulte la Figura 6). La selección de un modelo pequeño y de alto rendimiento tiene un impacto significativo tanto en los costos operativos como en la elección del entorno informático.

Tanto el modelo de parámetros ChatGPT 175 B como el GPT-4 [13] con un estimado de 1,8 billones de parámetros requieren un despliegue a gran escala de aceleradores como GPU para proporcionar suficiente potencia informática para el entrenamiento y el ajuste. Los modelos ágiles, por el contrario, normalmente pueden ejecutar inferencias en cualquier hardware, desde CPU de un solo socket hasta GPU de nivel básico y clústeres enormemente acelerados. Basado en el excelente rendimiento de los modelos con parámetros de 13 B o menos, la definición de IA ágil actualmente se establece empíricamente dentro de los parámetros de 15 B. En general, el modelo Agile proporciona un enfoque más rentable y escalable para abordar nuevos casos de uso (consulte la discusión sobre las ventajas y desventajas del modelo Agile).

El segundo aspecto de las licencias de código abierto permite que la academia y la industria repitan los modelos de cada uno, impulsando el florecimiento de la innovación. Los modelos de código abierto permiten mejoras increíbles en las capacidades de los modelos pequeños, como se muestra en la Figura 5.

Figura 5. En la primera mitad de 2023, los modelos ágiles GenAI de código abierto disponibles comercialmente y no disponibles comercialmente han logrado un crecimiento explosivo. Crédito de la imagen: Laboratorios Intel

A principios de 2023 surgieron varios ejemplos de modelos de IA generativa ágil de propósito general, comenzando con LLaMA de Meta [8], que tiene modelos con 7 mil millones, 13 mil millones, 33 mil millones y 65 mil millones de parámetros. Entre ellos, los modelos a escala de parámetros de 7 mil millones y 13 mil millones se crearon ajustando LLaMA: Alpaca[14] de la Universidad de Stanford, Koala[15] del Berkeley AI Research Institute y UC Berkeley, Carnegie Mellon University, Stanford Vicuña [ 16], una colaboración entre investigadores de la Universidad de California, UC San Diego, y la Universidad de Inteligencia Artificial Mohamed bin Zayed. Recientemente, Microsoft Research publicó un artículo que presenta Orca [17], un modelo de 13 mil millones de parámetros basado en LLaMA, que imita el proceso de inferencia de modelos gigantes, logrando resultados impresionantes antes de realizar ajustes para dominios específicos.Resultados profundos.

Figura 6. Comparación de la calidad de respuesta relativa de los chatbots de código abierto mediante GPT-4 utilizando el conjunto de evaluación Vicuña. Fuente de la imagen: Microsoft Research[17]

Vicuña puede considerarse como un representante típico del modelo ágil de código abierto derivado recientemente de LLaMA. Vicuna-13B es un chatbot desarrollado conjuntamente por varias universidades. El propósito del lanzamiento de Vicuna es "llenar los vacíos en la capacitación y los detalles arquitectónicos de los modelos existentes (como ChatGPT)" [18]. Después de ajustar los datos de diálogo compartido de ShareGPT, se evalúan utilizando GPT-4, que mejora la calidad de la respuesta en más del 90% en comparación con ChatGPT y Google Bard [16]. Sin embargo, estos primeros modelos de código abierto no estaban disponibles comercialmente. Según los informes, el MPT-7B[10] de MosaicML y el Falcon 7B[9] del Technology Innovation Institute son modelos de código abierto disponibles comercialmente y su calidad es comparable a la del LLaMA-7B.

Figura 7. En la compleja tarea de inferencia de disparo cero de BIG-bench Hard, el rendimiento de Orca-13B es comparable al de ChatGPT. Fuente de la imagen: Intel Labs[17]

Según los investigadores [11], en puntos de referencia complejos de razonamiento de muestra cero (como Big-Bench Hard, BBH [19]), Orca es más de 100% mejor que los modelos ajustados por instrucciones (como Vicuña-13B), y en BBH El rendimiento en el equipo de prueba es el mismo que el de ChatGPT-3.5. El rendimiento superior de Orca-13B sobre otros modelos refuerza la idea de que los modelos gigantes de tal tamaño pueden surgir de los métodos brutales utilizados en el entrenamiento inicial de modelos. De hecho, este punto de vista es beneficioso para algunos modelos pequeños para refinar conocimientos y métodos, pero la inferencia del modelo no requiere necesariamente una escala de parámetros enorme, incluso en casos generales. Una advertencia es que la capacidad cognitiva, el dominio de las habilidades y el conocimiento de un modelo no se pueden evaluar completamente hasta que el modelo se haya implementado y utilizado a gran escala.

Al momento de escribir este artículo, Meta lanzó el modelo Llama 2 con tamaños de parámetros de 7 mil millones, 13 mil millones y 70 mil millones [20]. Apenas cuatro meses después de la llegada de la primera generación, el modelo ha experimentado importantes mejoras. En el cuadro comparativo [21], el ágil Llama 2 13B logra un rendimiento similar al de los anteriores LLaMA y MPT-30B y Falcon 40B de mayor tamaño. Llama 2 es de código abierto y está disponible gratuitamente para investigación y uso comercial. Se lanzó con Microsoft y muchos otros socios, incluido Intel. El compromiso de Meta con el modelo de código abierto y sus colaboraciones de amplio alcance seguramente impulsarán el rápido progreso que hemos visto en dichos modelos en la industria o el mundo académico.

El tercer aspecto del modelo ágil tiene que ver con la especialización. Muchos de los modelos ágiles recientemente introducidos son modelos genéricos, como LLaMA, Vicuna y Orca. Los modelos ágiles de propósito general pueden depender únicamente de la memoria de parámetros y de actualizaciones de bajo costo a través de métodos de ajuste, incluida la adaptación de bajo rango (LoRA) [22] de modelos de lenguaje grandes y métodos generativos de aumento de recuperación [23] (de datos editados). corpus para extraer conocimiento relevante en tiempo real). Se están creando y mejorando continuamente soluciones de mejora de la recuperación con marcos GenAI como LangChain [24] y Haystack [25]. Estos marcos pueden integrar la indexación de manera fácil y flexible, acceder de manera eficiente a grandes corpus y permitir la recuperación basada en la semántica.

La mayoría de los usuarios empresariales prefieren modelos específicos que estén ajustados a su dominio específico. Estos modelos específicos también tienden a adoptar un enfoque de recuperación para utilizar plenamente todos los activos de información clave. Por ejemplo, es posible que los usuarios de atención médica deseen automatizar las comunicaciones con los pacientes.

Estos modelos específicos adoptan dos enfoques principales:

  • En primer lugar, el modelo en sí está especializado para la tarea específica y el tipo de datos requerido. Este enfoque se puede implementar de varias maneras, incluida la capacitación previa sobre conocimientos de dominios específicos (por ejemplo, capacitación previa de phi-1 sobre datos de alta calidad recopilados en la web), el ajuste de un modelo base de propósito general de del mismo tamaño (por ejemplo, Clinical How Camel[26] afina el modelo LLaMA-13B), o destila y transfiere el conocimiento de modelos gigantes a modelos ágiles de estudiantes (por ejemplo, Orca imita el proceso de razonamiento de GPT-4, incluyendo registro y seguimiento del proceso de razonamiento del modelo, proceso de pensamiento paso a paso GPT-4 y otras instrucciones complejas).
  • En segundo lugar, los datos relevantes se organizan e indexan para su recuperación instantánea. Los datos pueden ser enormes, pero aún así limitados al caso de uso objetivo. Los modelos pueden recuperar contenido web público y privado de consumo o empresarial continuamente actualizado. Los usuarios pueden decidir qué recursos se indexan, eligiendo entre recursos web de alta calidad y datos privados o corporativos más completos. Si bien las técnicas de recuperación ahora están integradas en sistemas grandes y ágiles, esta técnica es fundamental para modelos pequeños, ya que el rendimiento del modelo depende en gran medida de ello. Además, también pone a disposición de los modelos ágiles internos todos los datos privados y la información almacenada localmente de la empresa.

03Ventajas y desventajas del modelo ágil de IA generativa

En el futuro, la escala de los modelos ágiles de tamaño mediano puede aumentar a 20 mil millones o 25 mil millones de parámetros, pero aún está muy por debajo del nivel de 100 mil millones de parámetros. También hay modelos con parámetros intermedios, como MPT-30B, Falcon 40B y Llama 2 70B. Si bien se espera que superen a los modelos más pequeños en el caso de disparo cero, para cualquier conjunto de tareas bien definido (nota del editor: por ejemplo, para responder preguntas, traducir, generar resúmenes, etc.), no esperaría que superen significativamente en un modelo ágil de menor escala, dirigido y basado en la recuperación.

Los modelos ágiles tienen muchas ventajas sobre los modelos gigantes, y estas ventajas aumentan aún más si los modelos están dirigidos y se basan en la recuperación, entre ellas:

  • Más sostenible y de menor costo : los costos de capacitación y cálculo de inferencia se reducen considerablemente [27]. El costo computacional en el tiempo de ejecución de la inferencia puede ser el factor decisivo para la disponibilidad 24 horas al día, 7 días a la semana de modelos orientados al negocio, y cuando se implementa una gran cantidad de modelos, el impacto general reducido en el medio ambiente tiene mucho sentido. Al ser sostenibles, enfocados y orientados funcionalmente, los modelos ágiles no necesitan abordar los ambiciosos objetivos de los modelos generales de IA y están menos involucrados en el discurso público y regulatorio relacionado.

  • Iteraciones de ajuste más rápidas : los modelos más pequeños se pueden ajustar en solo unas pocas horas (o menos), agregando nueva información o nuevas características al modelo a través de métodos adaptativos como LoRA [28]. De esta manera, el modelo se puede mejorar con más frecuencia para garantizar que siga satisfaciendo las necesidades de los usuarios.

  • Ventajas de los modelos de recuperación : Los sistemas de recuperación, al hacer referencia a la mayor parte de la información de fuentes de referencia directa, en lugar de extraer información de la memoria paramétrica del modelo, mejoran el rendimiento de:

    • Interpretabilidad : el modelo de recuperación utiliza la atribución de fuente, que se puede rastrear hasta la fuente de información y verificar su credibilidad.
    • Puntualidad : una vez indexada la última fuente de datos, el modelo puede utilizarla inmediatamente sin necesidad de volver a capacitarla ni realizar ajustes. Esto permite agregar o actualizar información relevante continuamente casi en tiempo real.
    • Alcance de los datos : La información indexada para una fácil recuperación puede ser muy completa y detallada. Cuando se centra en el dominio de interés, el modelo puede cubrir una amplia gama y profundidad de datos públicos y privados, en esa vertical, potencialmente mayor en volumen y detalle que los datos de entrenamiento para el modelo base gigante.
    • Precisión : el acceso directo a los datos en su forma original, los detalles de los datos y el contexto reduce las alucinaciones y las aproximaciones de los datos, proporcionando respuestas confiables y completas siempre que los datos estén dentro del alcance de la recuperación. Para los modelos más pequeños, también hay menos conflicto entre la información rastreable y recopilada que se recupera cada vez y la información de la memoria, que (como los modelos gigantes) puede estar desactualizada, incompleta y pasivamente rastreable.
  • Elección de hardware : Los modelos ágiles se pueden inferir en prácticamente cualquier hardware, incluidas soluciones generalizadas que pueden ya estar integradas en entornos informáticos. Por ejemplo, el modelo ágil Llama 2 de Meta (7 mil millones y 13 mil millones de parámetros) funciona bien en los productos de centros de datos de Intel (incluidos Xeon, Gaudi2 e Intel Data Center GPU Max Series) [29].

  • Integración, seguridad y privacidad : los modelos GenAI gigantes actuales, como ChatGPT, generalmente se ejecutan como modelos independientes en grandes centros de datos en plataformas de terceros y se accede a ellos a través de interfaces. Los modelos ágiles de IA, por el contrario, pueden ejecutarse integrados en aplicaciones empresariales más grandes y estar completamente integrados en entornos informáticos locales. Esto tiene una gran importancia para proteger la seguridad y la privacidad, porque no es necesario intercambiar información con modelos y entornos informáticos de terceros, e incluso todos los mecanismos de seguridad de las aplicaciones del mercado se pueden aplicar al motor GenAI.

  • Optimización y compresión de modelos : las técnicas de optimización y compresión de modelos que pueden reducir los requisitos informáticos, como la cuantificación de modelos, muestran buenos resultados en modelos ágiles.

Algunos desafíos del modelo ágil aún merecen atención:

  • Alcance de la tarea reducido : los modelos generales gigantes tienen una diversidad excelente, especialmente frente a nuevos casos de uso de disparo cero. Queda por evaluar la amplitud y el alcance que pueden lograr los sistemas ágiles, pero los modelos recientes parecen haber mejorado en este sentido. El modelo de dominio ágil supone que el alcance de la tarea se conoce y está bien definido durante el entrenamiento previo y el ajuste, por lo que la reducción del alcance de la tarea no debería afectar ninguna capacidad relacionada. Un modelo de dominio ágil no es sólo para una única tarea, sino para un conjunto de capacidades relacionadas. Esto puede llevar a la fragmentación de los modelos ágiles que son específicos de tareas o negocios.
  • Es posible que sea necesario realizar pequeños ajustes para mejorar el rendimiento : el ajuste fino no siempre es necesario para resolver eficazmente un problema específico de un dominio, pero puede mejorar el rendimiento de la inteligencia artificial al ajustar el modelo para que cumpla con las tareas y la información requerida por la aplicación. Las técnicas actuales permiten que este proceso se realice con muy pocas muestras y sin una gran experiencia en ciencia de datos.
  • Recuperar un modelo requiere indexar todos los datos de origen : el modelo obtiene la información requerida a través del mapa de índice en el momento de la inferencia, pero existe el riesgo de perder la fuente de la información, lo que la hace imposible para el modelo. Para garantizar la trazabilidad, la interpretabilidad, etc., los modelos específicos basados ​​​​en la recuperación no deben depender de información detallada en el espacio de parámetros, sino principalmente de información de índice, que se puede extraer cuando sea necesario.

04 Resumen

Los grandes avances en la IA generativa han traído nuevas capacidades, como agentes de IA que conversan en lenguaje natural, generan texto e imágenes atractivos, aprovechan el contexto de iteraciones anteriores y más. Este artículo presenta el concepto de "inteligencia artificial ágil" y explica por qué se convertirá en el método principal para implementar GenAI en el futuro. En términos simples, los modelos ágiles de IA se ejecutan más rápido, pueden mantener el modelo actualizado más rápidamente mediante ajustes continuos y son más adecuados para una iteración técnica rápida a través de la innovación colectiva en la comunidad de código abierto.

Como lo demuestran múltiples ejemplos, la evolución de los modelos gigantes muestra un rendimiento excelente, lo que sugiere que los modelos ágiles no necesitan equipararse con los gigantes. Los modelos ágiles ofrecen el mayor valor de la industria una vez que se dominan las capacidades cognitivas básicas, se ajustan según sea necesario y los datos están disponibles a pedido.

Por supuesto, los modelos ágiles no hacen obsoletos los modelos gigantes. Aún se espera que los modelos Jumbo funcionen mejor con disparo cero, listos para usar. Los modelos grandes también se pueden utilizar como fuentes para refinarlos en modelos ágiles más pequeños (modelos docentes). Si bien los modelos gigantes tienen una gran cantidad de memoria adicional para una variedad de usos potenciales y una variedad de habilidades, esta versatilidad no es necesariamente necesaria para la mayoría de las aplicaciones GenAI. En cambio, la capacidad de ajustar el modelo basándose en información y habilidades relevantes para el dominio, combinada con la capacidad de recuperar información actualizada de fuentes locales y globales, hará que el modelo ágil sea la opción más valiosa para muchas aplicaciones.

Pensar en modelos de IA ágiles y específicos como módulos que pueden incorporarse a cualquier aplicación existente ofrece propuestas de valor convincentes, que incluyen:

  • Requiere costos mínimos de implementación y operación.
  • Puesta a punto para diversas tareas y datos privados y corporativos.
  • Los modelos se pueden actualizar durante la noche y ejecutarse en una variedad de hardware, como CPU, GPU o aceleradores.
  • Puede integrarse en entornos informáticos y aplicaciones existentes en el mercado actual.
  • Puede implementarse localmente o ejecutarse en una nube privada.
  • Se pueden aplicar todas las configuraciones de seguridad y privacidad.
  • Mayor precisión e interpretabilidad.

Si bien proporciona capacidades similares a los modelos gigantes de IA generativa, es más respetuoso con el medio ambiente.

Un puñado de modelos gigantes seguirán logrando avances impresionantes. Sin embargo, lo más probable es que la industria solo necesite unas pocas docenas de modelos básicos ágiles genéricos, que pueden usarse para construir innumerables versiones específicas de los modelos. Creo que en un futuro próximo, GenAI penetrará en todos los ámbitos de la vida, principalmente mediante la integración de módulos inteligentes ágiles, específicos y seguros como motor de crecimiento de todos los ámbitos de la vida.

FIN

Referencias

1.https://www.trendforce.com/presscenter/news/20230301-11584.html

2.https://www.mosaicml.com/blog/mpt-7b

3.https://arxiv.org/pdf/2306.02707.pdf

4.https://writings.stephenwolfram.com/2023/03/chatgpt-gets-its-wolfram-superpowers/

5.https://openai.com/blog/chatgpt-plugins

6.https://doi.org/10.48550/arxiv.2212.10511

7.https://paperswithcode.com/dataset/popqa

8.https://ai.facebook.com/blog/large-language-model-llama-meta-ai/

9.https://falconllm.tii.ae/

10.https://www.mosaicml.com/blog/mpt-7b

11.https://arxiv.org/pdf/2306.02707.pdf

12.https://blog.salesforceairesearch.com/xgen/

13.https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/

14.https://crfm.stanford.edu/2023/03/13/alpaca.html

15.https://bair.berkeley.edu/blog/2023/04/03/koala/

16.https://lmsys.org/blog/2023-03-30-vicuña/

17.https://arxiv.org/pdf/2306.02707.pdf

18.https://pub.towardsai.net/meet-vicuna-the-latest-metas-llama-model-that-matches-chatgpt-rendimiento-e23b2fc67e6b

19.https://github.com/suzgunmirac/BIG-Bench-Hard

20.https://about.fb.com/news/2023/07/llama-2/

21.https://ai.meta.com/llama/

22.https://arxiv.org/abs/2106.09685

23.https://proceedings.neurips.cc/paper/2020/hash/6b493230205f780e1bc26945df7481e5-Abstract.html

24.https://python.langchain.com/docs/get_started/introduction.html

25.https://www.haystackteam.com/core/knowledge

26.https://arxiv.org/abs/2305.12031

27.https://www.semianalysis.com/p/google-we-have-no-moat-and-neither

28.https://arxiv.org/pdf/2106.09685.pdf

29.https://www.intel.com/content/www/us/en/developer/articles/news/llama2.html

Este artículo está autorizado por el autor original y compilado por Baihai IDP. Si necesita reimprimir la traducción, comuníquese con nosotros para obtener autorización.

Enlace original :

https://towardsdatascience.com/survival-of-the-fittest-compact-generative-ai-models-are-the-future-for-cost- Effective-ai-at-scale-6bbdc138f618

Supongo que te gusta

Origin blog.csdn.net/Baihai_IDP/article/details/132403756
Recomendado
Clasificación