[Estreno mundial] ¡El modelo InternLM-20B de 20 mil millones de parámetros de Scholar·Puyu es de código abierto!

8e61c7f7eb180b225328f2545c97c805.png

El 20 de septiembre, el Laboratorio de Inteligencia Artificial de Shanghai (Laboratorio de IA de Shanghai) y SenseTime, junto con la Universidad China de Hong Kong y la Universidad de Fudan, lanzaron oficialmente la versión InternLM-20B de 20 mil millones de parámetros del Scholar·Puyu Large Model (InternLM), y lo lanzó en Alibaba Cloud ModelScope se lanza como código abierto por primera vez. Al mismo tiempo, toda la cadena de herramientas de Shusheng Puyu para aplicaciones e investigación y desarrollo de modelos grandes se ha actualizado en todos los ámbitos y seguirá estando completamente abierta junto con InternLM-20B, brindando autorización comercial gratuita a empresas y desarrolladores.

Aprovechando la ola, el valor de aplicación de los modelos grandes ha recibido cada vez más atención. Al igual que cualquier tecnología nueva en la historia, su vitalidad eventualmente regresará a si puede implementarse ampliamente y traer cambios positivos y reales al mundo. En este contexto, el Laboratorio de IA de Shanghai se asoció con varias instituciones para lanzar el modelo grande InternLM-20B con parámetros de peso medio . Tiene un rendimiento avanzado y es fácil de aplicar. Con menos de un tercio del número de parámetros , ha alcanzado el nivel de lo que actualmente se considera un modelo de código abierto: el nivel de capacidad de referencia Llama2-70B .

Enlace de la biblioteca de códigos: https://github.com/InternLM/InternLM

Enlace de la comunidad de alcance mágico: https://modelscope.cn/organization/Shanghai_AI_Laboratory

Desde su primer lanzamiento en junio de este año, Shusheng Puyu ha pasado por múltiples rondas de actualizaciones y ha tenido un gran impacto en la comunidad y la industria del código abierto.

f76466289141bf63d0145d58fed79032.png

Scholar·Puyu "Edición Mejorada": No sólo aumenta la cantidad

En comparación con los modelos 7B y 13B que la comunidad nacional ha abierto anteriormente, el modelo 20B tiene capacidades integrales más poderosas, especialmente en capacidades complejas de razonamiento y reflexión, por lo que puede brindar un soporte de rendimiento más potente para aplicaciones prácticas. ; En el Al mismo tiempo, el modelo de nivel 20B se puede inferir en una sola tarjeta y, después de la cuantificación de bits bajos, se puede ejecutar en una única GPU de consumo, lo que lo hace más conveniente en aplicaciones prácticas.

InternLM-20B es un modelo de lenguaje grande y de peso medio entrenado desde cero basado en un corpus de preentrenamiento de tokens de 2.3T. En comparación con InternLM-7B, el corpus de capacitación se ha sometido a un mayor nivel de limpieza multinivel, complementado con una alta densidad de conocimiento y datos de capacitación para fortalecer las capacidades de comprensión y razonamiento. Por lo tanto, InternLM-20B ha mejorado significativamente en aspectos como la capacidad de comprensión, la capacidad de razonamiento, la capacidad matemática y la capacidad de programación que prueban el nivel técnico de los modelos de lenguaje.

En comparación con los modelos anteriores de código abierto, las ventajas de capacidad del InternLM-20B se reflejan principalmente en:

Excelente desempeño general. InternLM-20B tiene un rendimiento integral excelente, no solo lidera los modelos de código abierto de magnitud similar (incluidos Llama-33B, Llama2-13B y los modelos nacionales de código abierto 7B y 13B), sino también con menos de un tercio de los parámetros. , ha logrado el mejor desempeño en la evaluación, el resultado alcanzó el nivel Llama2-70B.

Potentes capacidades de llamada de herramientas. InternLM-20B amplía los límites de capacidad del modelo y logra una conexión efectiva entre modelos grandes y escenas reales. InternLM-20B admite docenas de tipos de complementos y decenas de miles de funciones API. Obtuvo los mejores resultados en el conjunto de evaluación ToolBench. En la competencia con ChatGPT, la tasa de victorias alcanzó el 63,5%. InternLM-20B también tiene capacidades de interpretación de código y corrección de reflejos, lo que proporciona una buena base técnica para la construcción de agentes.

Contexto más largo. A través de la expansión de la capacitación en múltiples etapas, InternLM-20B admite una longitud de contexto de 16K, lo que respalda de manera más efectiva la comprensión de textos largos, la generación de textos largos y conversaciones ultralargas.

Alineación de valores más segura . En comparación con versiones anteriores, InternLM-20B es más seguro y confiable en cuanto a alineación de valores. Durante el proceso de desarrollo y capacitación, el equipo de investigación mejoró enormemente su seguridad mediante la alineación de valores en dos etapas basada en SFT (ajuste fino supervisado) y RLHF (aprendizaje por refuerzo basado en retroalimentación humana), así como entrenamiento adversario por parte de un equipo rojo experto. . Cuando los usuarios hacen preguntas sesgadas, el modelo puede brindar una orientación positiva.

Herramientas y sistemas de datos de código abierto completamente actualizados. La cadena de herramientas de código abierto Shusheng Puyu se ha actualizado en todos los ámbitos, formando un sistema de herramientas más completo, incluido el marco de capacitación previa InternLM-Train, el marco de ajuste fino de bajo costo XTuner, el marco de inferencia de implementación LMDeploy, el marco de evaluación. OpenCompass y el marco de agente para aplicaciones de escenarios.Lagent. La cadena de herramientas Shusheng·Puyu formará una potente herramienta de código abierto y un sistema de datos con la plataforma de datos de código abierto OpenDataLab, proporcionando conjuntamente I+D de cadena completa y soporte de aplicaciones para el mundo académico y la industria.

e90ed266b218aa6b111f5d49238da429.pngSistema de herramientas de cadena completa completamente actualizado

Mejora de la arquitectura: estructura profunda, contexto largo

En el último período, las instituciones nacionales han abierto sucesivamente varios modelos con parámetros 7B y 13B y han logrado buenos resultados en las evaluaciones. Sin embargo, los investigadores han descubierto que estos modelos todavía tienen limitaciones a la hora de adaptarse a tareas posteriores, especialmente tareas que requieren mayor precisión y capacidades de razonamiento. Para respaldar mejor estas tareas, la industria exige un modelo de código abierto de peso medio para proporcionar capacidades más sólidas de comprensión, razonamiento y generación de textos largos.

Con una escala de parámetros relativamente limitada, los investigadores enfrentan importantes compensaciones al diseñar arquitecturas: ¿aumentar la profundidad o el ancho del modelo? A través de extensos experimentos controlados, el equipo de Shusheng Puyu descubrió que las capas de modelo más profundas son más propicias para el cultivo de habilidades de razonamiento complejas. Por lo tanto, durante el diseño de la arquitectura, los investigadores establecieron el número de capas del modelo en 60 capas, superando los diseños de 32 o 40 capas utilizados habitualmente en los modelos 7B y 13B; al mismo tiempo, las dimensiones internas se mantuvieron en 5120. , que se sitúa en un nivel moderado. A través de nuevas opciones en diseño arquitectónico, InternLM-20B ha logrado mejoras significativas en capacidades de razonamiento complejo bajo la condición de alta eficiencia informática.

InternLM-20B también admite longitudes de contexto más largas. Durante el proceso de capacitación, la longitud del contexto del modelo se amplía de 2K a 8K en etapas. En el lado del razonamiento, basado en la tecnología Dynamic NTK, la longitud del contexto admitida por el razonamiento del modelo se amplía aún más a 16K. El contexto largo proporciona más espacio para la expansión de las capacidades del modelo, incluida la invocación de herramientas, la interpretación del código y la reflexión y corrección, y se ha convertido en una base técnica clave para respaldar la creación de agentes en InternLM-20B.

Mejora integral del desempeño: Liderar en múltiples evaluaciones

Con base en la plataforma de evaluación de modelos grandes OpenCompass, los investigadores llevaron a cabo una prueba exhaustiva y una comparación de InternLM-20B y modelos de código abierto de magnitud similar en 50 conjuntos de evaluación convencionales que cubren cinco dimensiones: lenguaje, conocimiento, comprensión, razonamiento y habilidad de la materia. Los resultados de la evaluación muestran que InternLM-20B está por delante del modelo de código abierto 13B en todas las dimensiones. La puntuación promedio no solo supera significativamente al Llama-33B, sino que es incluso mejor que el modelo de referencia Llama2-70B, que se denomina modelo de código abierto.

dc40b67eccba5dcd3f7f995c9b57902a.png

Resultados de la evaluación de InternLM-20B y modelos de código abierto de magnitud similar basados ​​en OpenCompass

La siguiente tabla muestra las puntuaciones promedio en cada dimensión de los principales modelos de código abierto con parámetros 13B y superiores (la fuente roja es la puntuación más alta en cada dimensión de capacidad dentro del rango 13B-33B). InternLM-20B supera a Llama2-70B en la evaluación integral de materias de lenguaje y conocimientos, y es igual a Llama2-70B en la evaluación de la capacidad de razonamiento, pero aún existe una cierta brecha en el conocimiento. Pero en todas las dimensiones anteriores, InternLM-20B está significativamente por delante del modelo de código abierto 13B convencional.

562847681d93ae2f438dde3d449be8e2.png

La siguiente tabla compara el rendimiento de los principales modelos de código abierto en algunos conjuntos de datos típicos importantes e influyentes (las fuentes rojas son los mejores resultados en varias evaluaciones dentro del rango de parámetros 13B-33B):

0712326e3cdfd6272ea8979770775ac8.jpeg

Los resultados de la evaluación muestran que InternLM-20B tiene excelentes resultados en las evaluaciones integrales de materias de MMLU, C-Eval y AGIEval, y ocupa una posición de liderazgo entre los modelos de código abierto de la misma magnitud . Generalmente se considera que MMLU es un indicador clave para evaluar la capacidad integral de un modelo de lenguaje: InternLM-20B logró una puntuación de 62,05 en MMLU, cercano al nivel de Llama-65B, mientras que en C-Eval y AGIEval, que incluyen el Examen de materias chinas, InternLM-20B El desempeño también superó significativamente a Llama2-70B.

Las evaluaciones de preguntas y respuestas de conocimiento como BoolQ, TriviaQA, NaturalQuestions, etc. evalúan principalmente la capacidad del modelo para dominar el conocimiento fáctico. En esta dimensión, el rendimiento de InternLM-20B supera al modelo 13B y tiene sus propias ventajas y desventajas con Llama-33B. , pero en comparación con Llama-65B o Llama2-70B todavía tiene una cierta brecha.

CMRC, CSL y RACE son conjuntos de evaluación para el conocimiento enciclopédico, la literatura científica y la comprensión lectora de los estudiantes, respectivamente, mientras que XSum es una evaluación resumida de la literatura desafiante; todas las evaluaciones anteriores prueban la capacidad de comprender modelos grandes. En términos de capacidad de comprensión, InternLM-20B tiene un rendimiento sobresaliente, superando a todos los modelos de código abierto en todos los niveles, incluido Llama2-70B.

El razonamiento, especialmente el razonamiento complejo, es un problema común que enfrentan actualmente los modelos de lenguaje, y también es una capacidad clave para determinar si el modelo puede admitir aplicaciones prácticas. WinoGrande, GSM-8K, PIQA y BigBench-Hard (BBH) enumerados en la tabla anterior examinan respectivamente las capacidades del modelo en razonamiento de sentido común, razonamiento matemático, razonamiento relacionado con la física y razonamiento integral desafiante. InternLM-20B ha superado significativamente los resultados del modelo convencional de código abierto 13B y está muy cerca del nivel de capacidad de razonamiento de modelos pesados ​​como Llama-65B en las evaluaciones de WinoGrande, GSM8K y PIQA.

Las capacidades de programación del InternLM-20B también se han mejorado significativamente. En los dos conjuntos de evaluación típicos de HumanEval y MBPP, supera ampliamente el modelo de código abierto 13B convencional, Llama-33B y Llama-65B, y se acerca al nivel de Llama2-70B.

En general, InternLM-20B está por delante del modelo de código abierto de nivel 13B en términos de capacidades integrales. Está cerca o incluso supera a Llama-65B en múltiples conjuntos de evaluación que evalúan capacidades de razonamiento y programación. En general, supera a Llama2- en chino- evaluaciones relacionadas 70B.

Capacidad mejorada para llamar a herramientas: puedes aprender incluso si no lo sabes

La llamada a herramientas es un medio importante para ampliar las capacidades de los modelos de lenguaje grandes y también es una de las características clave de los recientes lanzamientos de modelos grandes de OpenAI. El modelo de diálogo InternLM-20B admite la salida de contenido en docenas de direcciones, como fecha, clima, viajes, deportes, etc. y decenas de miles de API diferentes.

En ToolBench, un gran conjunto de evaluación de llamadas de herramientas modelo publicado conjuntamente por la Universidad de Tsinghua y otras instituciones, InternLM-20B logró una tasa de ganancia del 63,5 % en comparación con ChatGPT, logrando los mejores resultados de la lista y mostrando sólidas capacidades de llamada de herramientas.

ac7ac98ace3ae41b2499c202aab81c61.png

El modelo InternLM-20B también muestra una cierta capacidad de generalización de muestra cero. Para el modelo que no ha aprendido algunas herramientas durante el proceso de capacitación, InternLM-20B también puede llamar a herramientas para completar tareas basadas en descripciones de herramientas y preguntas de los usuarios. Por ejemplo, al proporcionar algunas herramientas de inteligencia artificial al modelo, el modelo puede planificar y razonar por sí solo para completar las preguntas del usuario.

93563b5e52c8cf60749faf14d9efb0c6.pngInternLM-20B puede llamar herramientas de forma independiente para completar tareas

Mejora de valores: un modelo de código abierto más seguro

Sólo un modelo de lenguaje amplio que esté más en línea con los valores humanos puede servir mejor como "asistente humano". InternLM-20B agregó una gran cantidad de datos en línea con los valores humanos durante el proceso de iteración. El equipo de investigación organizó a expertos en campos relevantes para realizar múltiples rondas de ataques del equipo rojo al modelo, mejorando en gran medida su seguridad.

Cuando un usuario hace una pregunta sesgada a InternLM-20B, este puede identificar factores inseguros y proporcionar una guía de valor correcta en la respuesta.

1b01fea03b2d772321d867a817edb88e.png

Capacidades de diálogo mejoradas: la longitud del contexto alcanza los 16K

La longitud del contexto de InternLM-20B se ha ampliado a 8K por etapas durante la fase de entrenamiento, y la longitud del contexto durante la inferencia se ha ampliado a 16K mediante medios como Dynamic NTK. Basado en una longitud de contexto de 16K, InternLM-20B puede admitir eficazmente la comprensión y generación de textos largos y conversaciones ultralargas.

El siguiente ejemplo demuestra la capacidad de comprensión de textos largos de InternLM-20B: deje que el modelo grande lea las últimas noticias de una marca de café conocida y el modelo podrá responder con precisión las tres preguntas formuladas.

a707bc8e37ed34c71393658ed540091a.png

InternLM-20B también tiene la capacidad de extraer resúmenes precisos de artículos e informes extensos. Los investigadores ingresan el capítulo de Introducción del artículo clásico ResNet en el modelo, y éste puede escribir un mejor resumen y resumir con precisión las ideas centrales y los resultados experimentales de ResNet.

2d14dbf22b7b6b7ad310f57df555821c.png

Todo el sistema de herramientas de la cadena se consolida aún más y se actualiza de manera integral.

En julio de este año, el Laboratorio de IA de Shanghai y SenseTime lanzaron conjuntamente Shusheng Puyu, el primero en la industria en abrir un sistema de herramientas de cadena completa que cubre datos, capacitación previa, ajuste, implementación y evaluación. Después de varios meses de actualizaciones, el sistema de herramientas de código abierto de cadena completa de Shusheng·PuYu se ha consolidado y actualizado, y ahora está disponible para toda la sociedad para uso comercial gratuito.

Corpus de preentrenamiento de código abierto Data-OpenDataLab "Scholar·Wanjuan"

Scholar·Wanjuan es un corpus multimodal de código abierto del Laboratorio de IA de Shanghai. Contiene tres partes: conjunto de datos de texto, conjunto de datos de imágenes y texto, y conjunto de datos de video. El volumen total de datos supera los 2 TB. Actualmente Scholar·Wanjuan 1.0 ha sido aplicado a la formación de Scholar·Multimodal y Scholar·Puyu. A través de la "digestión" de corpus de alta calidad, los modelos de la serie Shusheng han mostrado un rendimiento excelente en diversas tareas generativas, como comprensión semántica, preguntas y respuestas de conocimiento, comprensión visual y preguntas y respuestas visuales.

Marco de preformación eficiente de InternLM antes de la formación

Además de los modelos grandes, la base de código de InternLM tiene el marco de preentrenamiento InternLM-Train de código abierto. La profunda integración de los operadores del modelo Transformer mejora la eficiencia del entrenamiento, y se propone la tecnología exclusiva Hybrid Zero para lograr una superposición eficiente de la computación y la comunicación, reduciendo significativamente el tráfico de comunicación entre nodos durante el proceso de entrenamiento. Gracias a la máxima optimización del rendimiento, se logra la alta eficiencia de la computación paralela de kilocalorías y el rendimiento del entrenamiento alcanza el nivel líder en la industria.

Ajuste fino: ajuste fino de parámetros completos de InternLM, ajuste fino ligero de XTuner

InternLM admite el ajuste completo de los parámetros del modelo y admite una variedad de aplicaciones posteriores. Al mismo tiempo, la caja de herramientas de ajuste fino de modelos grandes de bajo costo XTuner también se ha abierto recientemente y admite una variedad de modelos grandes y algoritmos de ajuste fino como LoRA y QLoRA. A través de XTuner, solo se necesitan 8 GB de memoria de video. para realizar ajustes de bajo costo de los modelos 7B y ajustes de los modelos 20B, que se pueden completar en una tarjeta gráfica de consumo con memoria de video de 24G.

Deployment-LMDeploy admite la inferencia eficiente de miles de millones a cientos de miles de millones de modelos de lenguaje de parámetros

LMDeploy cubre un conjunto completo de soluciones livianas de implementación y servicio de inferencia para modelos grandes, admite la inferencia eficiente de modelos de miles de millones a cientos de miles de millones de parámetros y supera los principales proyectos de código abierto de la comunidad, como FasterTransformer, vLLM y Deepspeed, en términos de rendimiento. y otras actuaciones.

Evaluación: plataforma integral de evaluación de modelos grandes de OpenCompass

OpenCompass es la plataforma de evaluación de modelos grandes de código abierto del Laboratorio de IA de Shanghai. Ha creado un sistema de evaluación que cubre cinco dimensiones: materia, lenguaje, conocimiento, comprensión y razonamiento. Admite más de 50 conjuntos de datos de evaluación y 300.000 preguntas de evaluación, y admite cero muestras y muestras pequeñas La evaluación de la cadena de pensamiento y muestras es actualmente la plataforma de evaluación de código abierto más completa. Desde su lanzamiento en julio, ha atraído una amplia atención de la academia y la industria y ha sido ampliamente utilizado en investigación y desarrollo de grandes modelos por docenas de empresas e instituciones de investigación científica como Alibaba, Tencent y la Universidad de Tsinghua.

Marco de agente flexible y ligero de Application-Lagent

El equipo de Shusheng·Puyu también ha abierto el marco del agente, que ayuda a los usuarios a transformar rápidamente un modelo de lenguaje grande en múltiples tipos de agentes y proporciona herramientas típicas para potenciar modelos de lenguaje grandes. El marco de código abierto de Lagent admite modelos de lenguajes grandes como InternLM, Llama y ChatGPT, e integra varios tipos de capacidades de agentes como ReAct, AutoGPT y ReWoo. Con el apoyo de Lagent, estos agentes pueden llamar a grandes modelos de lenguaje para planificar el razonamiento y la invocación de herramientas, y pueden realizar reflexiones y autocorrecciones oportunas durante la ejecución.

Basado en el modelo a gran escala Shusheng·PuYu, el Laboratorio de IA de Shanghai ha desarrollado un conjunto más rico de aplicaciones posteriores, que se compartirán con el mundo académico y la industria en un futuro próximo.

Frente a la nueva ola de innovación lanzada por modelos grandes, el Laboratorio de IA de Shanghai se compromete a liderar el progreso tecnológico con innovación original, continuar construyendo modelos básicos con capacidades más completas, construyendo un sistema de herramientas de cadena completa más completo y fácil de usar. e insistir en el código abierto y el código abierto, gratuito para uso comercial, potenciar plenamente la prosperidad y el desarrollo de todo el ecosistema de la comunidad de IA, ayudar a las empresas y las instituciones de investigación a reducir el umbral para el desarrollo y la aplicación de grandes modelos y permitir el valor de los grandes. modelos que florecerán en todos los ámbitos de la vida.

Supongo que te gusta

Origin blog.csdn.net/Datawhale/article/details/133108906
Recomendado
Clasificación